docs/official/README.md · OSCHINA-MIRROR/paddlepaddle-models

Из области компьютерного зрения, он также показывает очень хорошие результаты, такие как обнаружение объектов, семантическая сегментация и т. д. Все наши эксперименты реализованы на основе PaddlePaddle1. Код и предварительно обученные модели доступны в PaddleClas2.

ImageNet/Acc 0,7518

Быстрый старт

8. PPLCNet_x2_5

PP-LCNet: Лёгкая свёрточная нейронная сеть на CPU

Мы предлагаем лёгкую сеть на CPU, основанную на стратегии ускорения MKLDNN, под названием PP-LCNet, которая повышает производительность лёгких моделей для множества задач. В этой статье перечислены технологии, которые могут повысить точность сети при почти постоянной задержке. Благодаря этим улучшениям точность PP-LCNet может значительно превзойти предыдущую сетевую структуру за то же время вывода для классификации. Как показано на рисунке 1, она превосходит большинство современных моделей. И для последующих задач компьютерного зрения она также показывает очень хорошие результаты, такие как обнаружение объектов, семантическая сегментация и т.д. Все наши эксперименты реализованы на основе PaddlePaddle1. Код и предварительно обученные модели доступны в PaddleClas2.

ImageNet/Acc 0,766

Быстрый старт

9. DistillationModel

Сети Squeeze-and-Excitation

Центральный строительный блок свёрточных нейронных сетей (CNN) — это оператор свёртки, который позволяет сетям создавать информативные признаки путём объединения пространственной и поканальной информации в локальных рецептивных полях каждого слоя. Широкий спектр предыдущих исследований изучил пространственный компонент этой взаимосвязи, стремясь усилить репрезентативную силу CNN за счёт повышения качества пространственных кодировок на протяжении всей иерархии признаков. В этой работе мы фокусируемся вместо этого на канальных отношениях и предлагаем новый архитектурный блок, который мы называем блоком «Squeeze-and-Excitation» (SE), который адаптивно перекалибрует канальные признаки, явно моделируя взаимозависимости между каналами. Мы показываем, что эти блоки можно складывать вместе, чтобы сформировать архитектуры SENet, которые чрезвычайно эффективно обобщаются на разных наборах данных. Мы также демонстрируем, что блоки SE приносят значительные улучшения в производительности существующих современных CNN при небольших дополнительных вычислительных затратах. Сети Squeeze-and-Excitation легли в основу нашей заявки на классификацию ILSVRC 2017, которая заняла первое место и снизила ошибку топ-5 до 2,251%, превзойдя победителя 2016 года примерно на 25%. Модели и код доступны по этому URL.

ImageNet/Acc 0,7952

Быстрый старт

10. SE_ResNeXt50_32x4d

Сети Squeeze-and-Excitation

Центральным строительным блоком свёрточных нейронных сетей (CNN) является оператор свёртки, который позволяет сетям создавать информативные признаки путём объединения пространственной и канальной информации в пределах локальных рецептивных полей на каждом уровне. Широкий спектр предыдущих исследований изучал пространственный компонент этой взаимосвязи, стремясь усилить репрезентативную силу CNN за счёт повышения качества пространственных кодировок по всей иерархии признаков. В этой работе мы фокусируемся вместо этого на взаимосвязи каналов и предлагаем новый архитектурный блок, который мы называем блоком «Squeeze-and-Excitation» (SE), который адаптивно перекалибрует канальные отклики признаков, явно моделируя взаимозависимости между каналами.

Мы показываем, что эти блоки можно объединять вместе для формирования архитектур SENet, которые чрезвычайно эффективно обобщаются на разных наборах данных. Мы также демонстрируем, что блоки SE обеспечивают значительное улучшение производительности существующих современных CNN при небольших дополнительных вычислительных затратах. Сети Squeeze-and-Excitation легли в основу нашей заявки на классификацию ILSVRC 2017, которая заняла первое место и снизила ошибку топ-5 до 2,251%, превзойдя победившую заявку 2016 года с относительным улучшением примерно на 25%. Модели и код доступны по этому URL. Сети Squeeze-and-Excitation (SE)

Сети Squeeze-and-Excitation сформировали основу нашей заявки на классификацию ILSVRC 2017, которая заняла первое место и снизила ошибку топ-5 до 2,251%, превзойдя победителя 2016 года с относительным улучшением примерно на 25%. Модели и код доступны по этому URL.

ImageNet/Acc 0,7651

Быстрый старт

Центральный строительный блок свёрточных нейронных сетей (CNN) — это оператор свёртки, который позволяет сетям создавать информативные признаки путём объединения пространственной и канальной информации в пределах локальных рецептивных полей на каждом слое. Широкий спектр предыдущих исследований изучил пространственный компонент этой взаимосвязи, стремясь усилить репрезентативную силу CNN за счёт повышения качества пространственных кодировок на протяжении всей иерархии признаков. В этой работе мы фокусируемся вместо этого на канальных отношениях и предлагаем новый архитектурный блок, который мы называем «Squeeze-and-Excitation» (SE), который адаптивно перекалибрует канальные признаки ответов, явно моделируя взаимозависимости между каналами. Мы показываем, что эти блоки можно складывать вместе для формирования архитектур SENet, которые чрезвычайно эффективно обобщаются на разных наборах данных. Кроме того, мы демонстрируем, что блоки SE обеспечивают значительное улучшение производительности существующих современных CNN при незначительных дополнительных вычислительных затратах.

HRNet: глубокое обучение представлению с высоким разрешением для визуального распознавания

Представления с высоким разрешением необходимы для чувствительных к положению задач зрения, таких как оценка позы человека, семантическая сегментация и обнаружение объектов. Существующие современные фреймворги сначала кодируют входное изображение как представление с низким разрешением через подсеть, образованную соединением свёрток с высоким и низким разрешением последовательно (например, ResNet, VGGNet), а затем восстанавливают представление с высоким разрешением из закодированного представления с низким разрешением. Вместо этого наша предложенная сеть, названная High-Resolution Network (HRNet), поддерживает представления с высоким разрешением на протяжении всего процесса. Есть две ключевые характеристики:

Соединить потоки свёрток от высокого к низкому разрешению параллельно.
Неоднократно обмениваться информацией между разрешениями.

Преимущество заключается в том, что результирующее представление является более богатым семантически и более точным пространственно. Мы демонстрируем превосходство предложенной HRNet в широком спектре приложений, включая оценку позы человека, семантическую сегментацию и обнаружение объектов, предполагая, что HRNet является более сильным базовым уровнем для задач компьютерного зрения. Весь код доступен по этому URL.

ImageNet/Acc 0,7952

Быстрый старт

Высокая разрешающая способность представлений имеет решающее значение для задач зрения, чувствительных к местоположению, таких как определение позы человека, семантическая сегментация и распознавание объектов. Существующие передовые методы сначала кодируют входящее изображение в представление с низкой разрешающей способностью через подсеть, состоящую из последовательно соединённых свёрток высокой и низкой разрешающей способности (например, ResNet, VGGNet). Затем они восстанавливают представление высокой разрешающей способности из закодированного представления низкой разрешающей способности. Вместо этого предлагаемая нами сеть под названием High-Resolution Network (HRNet) сохраняет представления высокой разрешающей способности на всём протяжении процесса. У неё есть две основные особенности:

— Соединение потоков свёрток от высокой к низкой разрешающей способности параллельно; — Постоянный обмен информацией между различными уровнями разрешающей способности.

В результате получается представление, которое богаче семантически и точнее пространственно. Мы продемонстрировали превосходство предлагаемой HRNet в различных областях применения, включая определение позы человека, семантическую сегментацию и распознавание объектов, что позволяет предположить, что HRNet — более мощная основа для решения задач компьютерного зрения. Все коды доступны по этому URL. Представления сохраняются на протяжении всего процесса. Есть две ключевые характеристики: (i) соединять потоки свёртки высокого и низкого разрешения параллельно; (ii) многократно обмениваться информацией между разрешениями. Преимущество заключается в том, что результирующее представление семантически богаче и пространственно более точное. Мы показываем превосходство предложенного HRNet в широком спектре приложений, включая оценку позы человека, семантическую сегментацию и обнаружение объектов, предполагая, что HRNet является более сильным базовым методом для задач компьютерного зрения. Все коды доступны по этому URL https.

Примечание: в данном переводе могут быть неточности, так как исходный текст содержит технические термины и понятия, которые сложно интерпретировать без контекста. Быстрый старт

HRNet_W64_C

Глубокое обучение представлению с высоким разрешением для визуального распознавания.

Представление с высоким разрешением важно для чувствительных к положению задач зрения, таких как оценка позы человека, семантическая сегментация и обнаружение объектов. Существующие современные фреймворки сначала кодируют входное изображение в представление с низким разрешением через подсеть, которая формируется путём соединения свёрток с высоким и низким разрешением последовательно (например, ResNet, VGGNet), а затем восстанавливают представление с высоким разрешением из закодированного представления с низким разрешением. Вместо этого наша предложенная сеть, названная High-Resolution Network (HRNet), поддерживает представления с высоким разрешением на протяжении всего процесса. Есть две ключевые характеристики:

Соединить потоки свёртки с высоким и низким разрешением параллельно.
Неоднократно обмениваться информацией между разрешениями.

Преимущество состоит в том, что результирующее представление более богато семантически и более точно пространственно. Мы показываем превосходство предложенной HRNet в широком спектре приложений, включая оценку позы человека, семантическую сегментацию и обнаружение объектов, предполагая, что HRNet является более сильным базовым уровнем для задач компьютерного зрения. Все коды доступны по этому URL.

ImageNet/Acc 0,793

Быстрый старт

SE_ResNeXt101_32x4d

Сети сжатия и возбуждения.

Центральный строительный блок свёрточных нейронных сетей (CNN) — это оператор свёртки, который позволяет сетям создавать информативные признаки путём объединения как пространственной, так и канальной информации в пределах локальных восприимчивых полей на каждом уровне. Широкий спектр предыдущих исследований исследовал пространственный компонент этих отношений, стремясь усилить репрезентативную силу CNN за счёт повышения качества пространственных кодировок на всей иерархии признаков. В этой работе мы вместо этого фокусируемся на канальных отношениях и предлагаем новый архитектурный блок, который мы называем блоком «сжатия и возбуждения» (SE), который адаптивно перекалибрует канальные признаки, явно моделируя взаимозависимости между каналами. Мы покажем, что эти блоки можно складывать вместе, чтобы сформировать архитектуры SENet, которые чрезвычайно эффективно обобщаются на разных наборах данных. Кроме того, мы продемонстрируем, что блоки SE приносят значительные улучшения в производительности существующих современных CNN при небольших дополнительных вычислительных затратах. Сети сжатия и возбуждения легли в основу нашей заявки на классификацию ILSVRC 2017, которая заняла первое место и снизила ошибку топ-5 до 2,251%, превзойдя заявку на победу 2016 года примерно на 25%. Модели и код доступны по этому URL.

ImageNet/Acc 0,7939

Быстрый старт

SENet154_vd

Сети сжатия и возбуждения.

В этой работе мы фокусируемся на взаимосвязи между каналами и предлагаем новый архитектурный блок, который мы называем «Squeeze-and-Excitation» (SE), он адаптивно перекалибрует отклики признаков по каналам, явно моделируя взаимозависимости между ними. Мы показываем, что эти блоки можно объединять в архитектуры SENet, которые чрезвычайно эффективно обобщаются на разных наборах данных.

Мы также демонстрируем, что блоки SE значительно улучшают производительность существующих современных CNN при незначительных дополнительных вычислительных затратах. Сети Squeeze-and-Excitation легли в основу нашей заявки на классификацию ILSVRC 2017, которая заняла первое место и снизила ошибку топ-5 до 2,251%, превзойдя победителя 2016 года примерно на 25%. Модели и код доступны по этому URL.

ImageNet/Acc 0,814.

Быстрый старт.

GoogLeNet.

Inception-v4, Inception-ResNet и влияние остаточных связей на обучение.

Очень глубокие свёрточные сети были основой для самых больших достижений в распознавании изображений за последние годы. Одним из примеров является архитектура Inception, которая показала очень хорошую производительность при относительно низких вычислительных затратах. Недавно введение остаточных связей в сочетании с более традиционной архитектурой позволило достичь уровня производительности state-of-the-art в конкурсе ILSVRC 2015; его производительность была аналогична сети последнего поколения Inception-v3. Это поднимает вопрос о том, есть ли какая-либо польза от объединения архитектуры Inception с остаточными связями. Здесь мы предоставляем чёткие эмпирические доказательства того, что обучение с остаточными соединениями значительно ускоряет обучение сетей Inception. Также есть некоторые свидетельства того, что остаточные сети Inception немного превосходят аналогичные дорогостоящие сети Inception без остаточных соединений.

Также мы представляем несколько новых оптимизированных архитектур как для остаточных, так и для нерекуррентных сетей Inception. Эти вариации значительно улучшают производительность распознавания одного кадра в задаче классификации ILSVRC 2012. Мы также демонстрируем, как правильное масштабирование активации стабилизирует обучение очень широких остаточных сетей Inception. С ансамблем из трёх остаточных и одной Inception-v4 мы достигаем ошибки топ-5 в 3,08% на тестовом наборе задачи классификации ImageNet (CLS).

ImageNet/Acc 0,707.

Быстрый старт.

InceptionV3.

Inception-v4, Inception-ResNet и влияние остаточных связей на обучение. Архитектура с остаточными связями. Здесь мы приводим чёткие эмпирические доказательства того, что обучение с использованием остаточных связей значительно ускоряет процесс обучения сетей Inception. Также есть некоторые свидетельства того, что остаточные сети Inception незначительно превосходят по производительности аналогичные дорогостоящие сети Inception без остаточных связей.

Мы также представляем несколько новых оптимизированных архитектур как для остаточных, так и для неостаточных сетей Inception. Эти вариации значительно улучшают производительность распознавания одного кадра в задаче классификации ILSVRC 2012.

Далее мы демонстрируем, как правильное масштабирование активации стабилизирует процесс обучения очень широких остаточных сетей Inception. Используя ансамбль из трёх остаточных и одной Inception-v4, мы достигаем 3,08% ошибки топ-5 в тестовом наборе задачи классификации ImageNet.

ImageNet/Acc 0,7914.

Быстрое начало.

Вопрос о том, есть ли польза от объединения архитектуры Inception с остаточными связями, возникает после того, как было показано, что использование остаточных соединений в сочетании с более традиционной архитектурой позволило достичь лучших результатов в конкурсе ILSVRC 2015. Его производительность была сравнима с последним поколением сети Inception-v3.

Здесь мы приводим чёткие эмпирические доказательства того, что обучение с использованием остаточных связей значительно ускоряет процесс обучения сетей Inception. Также есть некоторые свидетельства того, что остаточные сети Inception незначительно превосходят по производительности аналогичные дорогостоящие сети Inception без остаточных связей. Мы также представляем несколько новых оптимизированных архитектур для обеих сетей — как с остаточными, так и без них. Эти вариации значительно улучшают производительность распознавания одного кадра в задаче классификации ILSVRC 2012.

Также мы показываем, как правильное масштабирование активации помогает стабилизировать процесс обучения очень широких остаточных сетей Inception. С ансамблем из трёх остаточных и одного Inception-v4 мы достигаем ошибки топ-5 3,08 % в тестовом наборе задачи классификации ImageNet.

ImageNet/Acc 0,8077.

Быстрое начало.

Более глубокие нейронные сети сложнее обучать. В этой статье представлена остаточная обучающая структура, которая облегчает обучение сетей, которые существенно глубже, чем те, что использовались ранее. Вместо обучения функций без ссылок мы явно переформулируем слои как функции обучения остаточным значениям относительно входных данных слоя.

Предоставлены исчерпывающие эмпирические данные, показывающие, что эти остаточные сети легче оптимизировать и могут повысить точность за счёт значительного увеличения глубины. На наборе данных ImageNet мы оцениваем остаточные сети глубиной до 152 слоёв — это в 8 раз глубже, чем у сетей VGG, но всё ещё имеет меньшую сложность. Ансамбль этих остаточных сетей достигает 3,57 % ошибок в тестовом наборе ImageNet. Этот результат занял первое место в конкурсе классификации ILSVRC 2015.

Представлен анализ CIFAR-10 со 100 и 1000 слоями. Глубина представлений... ResNet34_vd

Deep Residual Learning for Image Recognition

ResNet50

Deep Residual Learning for Image Recognition

ResNet50_vd

Глубокие нейронные сети сложнее обучать. Мы представляем концепцию остаточного обучения, чтобы облегчить обучение сетей, которые значительно глубже, чем те, что использовались ранее. Мы явно переформулируем слои как обучающие остаточные функции со ссылкой на входные данные слоя, вместо того чтобы изучать функции без привязки.

Мы предоставляем исчерпывающие эмпирические доказательства того, что эти остаточные сети легче оптимизировать и могут повысить точность за счёт значительно увеличенной глубины. На наборе данных ImageNet мы оцениваем остаточные сети с глубиной до 152 слоёв — в 8 раз глубже, чем VGG-сети, но всё ещё имеющие меньшую сложность. Ансамбль этих остаточных сетей достигает ошибки в 3,57% на тестовом наборе ImageNet. Этот результат занял первое место в задаче классификации ILSVRC 2015.

Также мы представляем анализ CIFAR-10 со 100 и 1000 слоями. Глубина представлений имеет решающее значение для многих задач визуального распознавания. Исключительно благодаря нашим чрезвычайно глубоким представлениям мы получаем относительное улучшение на 28% на наборе данных обнаружения объектов COCO. Глубокие остаточные сети являются основой наших заявок на конкурсы ILSVRC и COCO 2015, где мы также заняли первые места в задачах обнаружения ImageNet, локализации ImageNet, обнаружения COCO и сегментации COCO. Значительно увеличилась глубина. В наборе данных ImageNet мы оцениваем остаточные сети с глубиной до 152 слоёв — это в 8 раз глубже, чем у сетей VGG, но при этом они имеют меньшую сложность. Ансамбль этих остаточных сетей достигает ошибки в 3,57% на тестовом наборе ImageNet. Этот результат занял первое место в задаче классификации ILSVRC 2015. Мы также представляем анализ CIFAR-10 со 100 и 1000 слоями.

Глубина представлений имеет решающее значение для многих задач визуального распознавания. Исключительно благодаря нашим чрезвычайно глубоким представлениям мы получаем относительное улучшение на 28% в наборе данных обнаружения объектов COCO. Глубокие остаточные сети лежат в основе наших заявок на конкурсы ILSVRC и COCO 2015, где мы также заняли первые места в задачах обнаружения ImageNet, локализации ImageNet, обнаружения COCO и сегментации COCO. ILSVRC и COCO 2015 соревнования, где мы также заняли первые места в задачах обнаружения ImageNet, локализации ImageNet, обнаружения COCO и сегментации COCO.

ResNet50_vd_KL

[Deep Residual Learning for Image Recognition] (https://paperswithcode.com/model/resnet)

Аннотация

Более глубокие нейронные сети сложнее обучать. Мы представляем остаточную обучающую структуру для облегчения обучения сетей, которые значительно глубже, чем те, что использовались ранее. Мы явно переформулируем слои как функции обучения остаткам по отношению к входным данным слоя, вместо того чтобы изучать функции без ссылок. Мы предоставляем всесторонние эмпирические данные, показывающие, что эти остаточные сети легче оптимизировать и могут повысить точность за счёт значительно увеличенной глубины. На наборе данных ImageNet мы оцениваем остаточные сети с глубиной до 152 слоёв — в 8 раз глубже, чем сети VGG, но всё ещё имеющие меньшую сложность. Ансамбль этих остаточных сетей достигает ошибки 3,57% на тестовом наборе ImageNet. Этот результат занял первое место в классификации ILSVRC 2015. Мы также представляем анализ CIFAR-10 со 100 и 1000 слоями.

Глубина представлений имеет решающее значение для многих задач визуального распознавания. Исключительно благодаря нашим чрезвычайно глубоким представлениям мы получаем относительное улучшение на 28% в наборе данных обнаружения объектов COCO. Глубокие остаточные сети являются основой наших заявок на соревнования ILSVRC & COCO 2015, где мы также заняли первые места в задачах обнаружения ImageNet, локализации ImageNet, обнаружения COCO и сегментации COCO.

ResNet101

[Adaptively Connected Neural Networks] (https://paperswithcode.com/paper/adaptively-connected-neural-networks)

Аннотация

В этой статье представлена новая адаптивно связанная нейронная сеть (ACNet) для улучшения традиционных свёрточных нейронных сетей (CNN) в двух аспектах. Во-первых, ACNet использует гибкий способ переключения глобального и локального вывода при обработке внутренних представлений признаков путём адаптивного определения статуса соединения между узлами признаков (например, пикселями карт признаков). Мы можем показать, что существующие CNN, классический многослойный персептрон (MLP) и недавно предложенная нелокальная сеть (NLN) [nonlocalnn17] являются частными случаями ACNet. Во-вторых, ACNet также способен обрабатывать неевклидовы данные. Обширные экспериментальные анализы на различных бенчмарках (т. е. классификация ImageNet-1k, обнаружение и сегментация COCO 2017, повторная идентификация личности CUHK03, анализ CIFAR и категоризация документов Cora) показывают, что ACNet может не только достичь современного уровня производительности, но и преодолеть ограничения традиционного MLP и CNN. Код доступен по адресу https URL.

ImageNet/Acc 0,7756

ResNet101_vd

[Глубокое остаточное обучение для распознавания изображений] (https://paperswithcode.com/model/resnet) Более глубокие нейронные сети сложнее обучать. Мы представляем остаточную обучающую структуру, чтобы облегчить обучение сетей, которые значительно глубже, чем те, что использовались ранее.

Мы явно переформулируем слои как обучающие остаточные функции со ссылкой на входные данные слоя, вместо того чтобы изучать функции без привязки. Мы предоставляем исчерпывающие эмпирические доказательства того, что эти остаточные сети легче оптимизировать и могут повысить точность за счёт значительно увеличенной глубины.

На наборе данных ImageNet мы оцениваем остаточные сети с глубиной до 152 слоёв — в 8 раз глубже, чем сети VGG, но всё ещё имеющие меньшую сложность. Ансамбль этих остаточных сетей достигает ошибки в 3,57% на тестовом наборе ImageNet. Этот результат занял первое место в задаче классификации ILSVRC 2015.

Глубокие остаточные сети лежат в основе наших заявок на соревнования ILSVRC и COCO 2015, где мы также заняли первые места в задачах обнаружения ImageNet, локализации ImageNet, обнаружения COCO и сегментации COCO. Задача классификации 2015 года. Мы также проводим анализ CIFAR-10 со слоями 100 и 1000. Глубина представлений имеет решающее значение для многих задач визуального распознавания. Исключительно благодаря нашим чрезвычайно глубоким представлениям мы получаем относительное улучшение на 28% в наборе данных обнаружения объектов COCO.

Глубокие остаточные сети лежат в основе наших заявок на конкурсы ILSVRC и COCO 2015, где мы также заняли первые места в задачах обнаружения ImageNet, локализации ImageNet, обнаружения COCO и сегментации COCO.

ImageNet/Acc 0,8059.

Быстрый старт.

ResNet200_vd.

Deep Residual Learning for Image Recognition.

Более глубокие нейронные сети сложнее обучать. Мы представляем структуру остаточного обучения, чтобы облегчить обучение сетей, которые значительно глубже, чем те, что использовались ранее. Мы явно переформулируем слои как обучающие остаточные функции по отношению к входным данным слоя, вместо того чтобы изучать функции без ссылок. Мы предоставляем исчерпывающие эмпирические доказательства того, что эти остаточные сети легче оптимизировать и могут повысить точность за счёт значительно увеличенной глубины.

На наборе данных ImageNet мы оцениваем остаточные сети глубиной до 152 слоёв — в 8 раз глубже, чем сети VGG, но всё ещё имеющие меньшую сложность. Ансамбль этих остаточных сетей достигает ошибки в 3,57% на тестовом наборе ImageNet. Этот результат занял первое место в задаче классификации ILSVRC 2015. Мы также проводим анализ CIFAR-10 с 100 и 1000 слоями.

Глубина представлений имеет решающее значение для многих задач визуального распознавания. Исключительно благодаря нашим чрезвычайно глубоким представлениям мы получаем относительное улучшение на 28 % в наборе данных обнаружения объектов COCO. Глубокие остаточные сети являются основой наших заявок на соревнования ILSVRC & COCO 2015, где мы также выиграли первые места в задачах обнаружения ImageNet, локализации ImageNet, обнаружения COCO и сегментации COCO.

ImageNet/Acc 0,8093.

Res2Net50_26w_4s.

Deep Residual Learning for Image Recognition.

На наборе данных ImageNet мы оцениваем остаточные сети глубиной до 152 слоёв — в 8 раз глубже, чем сети VGG, но всё ещё имеющие меньшую сложность. Ансамбль этих остаточных сетей достигает ошибки в 3,57 % на тестовом наборе ImageNet. Этот результат занял первое место в задаче классификации ILSVRC 2015. Мы также проводим анализ CIFAR-10 с 100 и 1000 слоями.

Глубина представлений имеет решающее значение для многих задач визуального распознавания. Исключительно благодаря нашим чрезвычайно глубоким представлениям мы получаем относительное улучшение на 28 % в наборе данных обнаружения объектов COCO. Глубокие остаточные сети являются основой наших заявок на соревнования ILSVRC & COCO 2015, где мы также выиграли первые места в задачах обнаружения ImageNet, локализации ImageNet, обнаружения COCO и сегментации COCO.

ImageNet/Acc 0,7933. Текст:

href="https://github.com/PaddlePaddle/PaddleClas/blob/release/2.3/docs/en/ImageNet_models_en.md">快速开始

41 Res2Net50_14w_8s Глубокое остаточное обучение для распознавания изображений

Аннотация

Более глубокие нейронные сети сложнее обучать. Мы представляем остаточную обучающую структуру, чтобы облегчить обучение сетей, которые значительно глубже, чем те, что использовались ранее. Мы явно переформулируем слои как изучение остаточных функций со ссылкой на входные данные слоя вместо изучения функций без ссылок. Мы предоставляем всесторонние эмпирические доказательства того, что эти остаточные сети легче оптимизировать и могут повысить точность за счёт значительно увеличенной глубины. На наборе данных ImageNet мы оцениваем остаточные сети с глубиной до 152 слоёв — в 8 раз глубже, чем сети VGG, но всё ещё имеющие меньшую сложность. Ансамбль этих остаточных сетей достигает ошибки в 3,57% на тестовом наборе ImageNet. Этот результат занял первое место в задаче классификации ILSVRC 2015. Мы также представляем анализ CIFAR-10 со 100 и 1000 слоями.

ImageNet/Acc 0,7946 快速开始 42 Res2Net50_vd_26w_4s Глубокое остаточное обучение для распознавания изображений

Аннотация

ImageNet/Acc 0,7975 快速开始 43 Res2Net101_vd_26w_4s Res2Net: новая архитектура многомасштабного позвоночника

Аннотация

Представление признаков в нескольких масштабах имеет большое значение для многочисленных задач зрения. Недавние достижения в базовых свёрточных нейронных сетях (CNN) постоянно демонстрируют более сильные способности представления в нескольких масштабах, приводя к последовательному

Представляем важность представления признаков в разных масштабах для множества задач компьютерного зрения. Недавние достижения в области базовых свёрточных нейронных сетей (CNN) продолжают демонстрировать всё более сильные способности к представлению данных в нескольких масштабах, что приводит к постоянному улучшению производительности в широком спектре приложений. Однако большинство существующих методов представляют мультимасштабные признаки послойно.

В этой статье мы предлагаем новый строительный блок для CNN, называемый Res2Net, путём создания иерархических остаточных соединений внутри одного остаточного блока. Res2Net представляет мультимасштабные функции на детальном уровне и увеличивает диапазон восприимчивых полей для каждого слоя сети. Предлагаемый блок Res2Net можно интегрировать в современные базовые модели CNN, такие как ResNet, ResNeXt и DLA. Мы оцениваем блок Res2Net на всех этих моделях и демонстрируем постоянное улучшение производительности по сравнению с базовыми моделями на широко используемых наборах данных, таких как CIFAR-100 и ImageNet. Дальнейшие исследования и экспериментальные результаты по типичным задачам компьютерного зрения, таким как обнаружение объектов, сопоставление активации классов и выделение заметных объектов, дополнительно подтверждают превосходство Res2Net над современными базовыми методами. Исходный код и обученные модели доступны по этому URL. Res2Net: новый тип архитектуры для базовых моделей с многомасштабным представлением признаков

В этой статье мы представляем Res2Net — новый блок для построения базовых моделей свёрточных нейронных сетей (CNN), который позволяет создавать многомасштабное представление признаков на детальном уровне и расширяет диапазон восприимчивых полей для каждого слоя сети. Блок Res2Net может быть интегрирован в современные базовые модели CNN, такие как ResNet, ResNeXt и DLA.

Мы оценили эффективность блока Res2Net на всех этих моделях и продемонстрировали стабильное улучшение производительности по сравнению с базовыми моделями на широко используемых наборах данных, таких как CIFAR-100 и ImageNet. Дальнейшие исследования и экспериментальные результаты по таким задачам компьютерного зрения, как обнаружение объектов, сопоставление активации классов и выделение значимых объектов, подтверждают превосходство Res2Net над современными базовыми методами. Исходный код и обученные модели доступны по этому URL.

Примечание: перевод выполнен автоматически, возможны неточности. Текст:

href="https://github.com/PaddlePaddle/PaddleClas/blob/release/2.3/docs/en/ImageNet_models_en.md">快速开始
- 48
- ResNeXt50_vd_64x4d
- Res2Net: A New Multi-scale Backbone Architecture
- Abstract
  Representing features at multiple scales is of great importance for numerous vision tasks. Recent advances in backbone convolutional neural networks (CNNs) continually demonstrate stronger multi-scale representation ability, leading to consistent performance gains on a wide range of applications. However, most existing methods represent the multi-scale features in a layer-wise manner. In this paper, we propose a novel building block for CNNs, namely Res2Net, by constructing hierarchical residual-like connections within one single residual block. The Res2Net represents multi-scale features at a granular level and increases the range of receptive fields for each network layer. The proposed Res2Net block can be plugged into the state-of-the-art backbone CNN models, e.g., ResNet, ResNeXt, and DLA. We evaluate the Res2Net block on all these models and demonstrate consistent performance gains over baseline models on widely-used datasets, e.g., CIFAR-100 and ImageNet. Further ablation studies and experimental results on representative computer vision tasks, i.e., object detection, class activation mapping, and salient object detection, further verify the superiority of the Res2Net over the state-of-the-art baseline methods. The source code and trained models are available on this https URL.
- ImageNet/Acc 0.8012
- 快速开始
49
- ResNeXt101_32x4d
- Res2Net: A New Multi-scale Backbone Architecture
- Abstract
  Representing features at multiple scales is of great importance for numerous vision tasks. Recent advances in backbone convolutional neural networks (CNNs) continually demonstrate stronger multi-scale representation ability, leading to consistent performance gains on a wide range of applications. However, most existing methods represent the multi-scale features in a layer-wise manner. In this paper, we propose a novel building block for CNNs, namely Res2Net, by constructing hierarchical residual-like connections within one single residual block. The Res2Net represents multi-scale features at a granular level and increases the range of receptive fields for each network layer. The proposed Res2Net block can be plugged into the state-of-the-art backbone CNN models, e.g., ResNet, ResNeXt, and DLA. We evaluate the Res2Net block on all these models and demonstrate consistent performance gains over baseline models on widely-used datasets, e.g., CIFAR-100 and ImageNet. Further ablation studies and experimental results on representative computer vision tasks, i.e., object detection, class activation mapping, and salient object detection, further verify the superiority of the Res2Net over the state-of-the-art baseline methods. The source code and trained models are available on this https URL.
- ImageNet/Acc 0.7865
- 快速开始

ResNeXt101_64x4d
Res2Net: A New Multi-scale Backbone Architecture

Abstract
Representing features at multiple scales is of great importance for numerous vision tasks. Recent advances in backbone convolutional neural networks (CNNs) continually demonstrate stronger
Перевод:

Быстрое начало

48

ResNeXt50_vd_64x4d

https://paperswithcode.com/model/res2net

Абстракт

Представлять признаки в разных масштабах очень важно для множества задач компьютерного зрения. Последние достижения в области базовых свёрточных нейронных сетей (CNN) постоянно демонстрируют более сильную способность представлять признаки в нескольких масштабах, что приводит к постоянному повышению производительности в широком спектре приложений. Однако большинство существующих методов представляют признаки в нескольких масштабах послойно. В этой статье мы предлагаем новый строительный блок для CNN, а именно Res2Net, путём создания иерархических остаточных соединений внутри одного остаточного блока. Res2Net представляет признаки в нескольких масштабах на детальном уровне и увеличивает диапазон восприимчивых полей для каждого слоя сети. Предлагаемый блок Res2Net можно подключить к современным базовым моделям CNN, таким как ResNet, ResNeXt и DLA. Мы оцениваем блок Res2Net на всех этих моделях и демонстрируем постоянное повышение производительности по сравнению с базовыми моделями на широко используемых наборах данных, таких как CIFAR-100 и ImageNet. Дальнейшие исследования и экспериментальные результаты по репрезентативным задачам компьютерного зрения, таким как обнаружение объектов, картирование активации классов и выделение значимых объектов, дополнительно подтверждают превосходство Res2Net над современными базовыми методами. Исходный код и обученные модели доступны по этому URL.*

ImageNet/Acc 0,8012

Быстрое начало

49

ResNeXt101_32x4d

https://paperswithcode.com/model/res2net

Абстракт

Представлять признаки в разных масштабах очень важно для множества задач компьютерного зрения. Последние достижения в области базовых свёрточных нейронных сетей (CNN) постоянно демонстрируют более сильную способность представлять признаки в нескольких масштабах, что приводит к постоянному повышению производительности в широком спектре приложений. Однако большинство существующих методов представляют признаки в нескольких масштабах послойно. В этой статье мы предлагаем новый строительный блок для CNN, а именно Res2Net, путём создания иерархических остаточных соединений внутри одного остаточного блока. Res2Net представляет признаки в нескольких масштабах на детальном уровне и увеличивает диапазон восприимчивых полей для каждого слоя сети. Предлагаемый блок Res2Net можно подключить к современным базовым моделям CNN, таким как ResNet, ResNeXt и DLA. Мы оцениваем блок Res2Net на всех этих моделях и демонстрируем постоянное повышение производительности по сравнению с базовыми моделями на широко используемых наборах данных, таких как CIFAR-100 и ImageNet. Дальнейшие исследования и экспериментальные результаты по репрезентативным задачам компьютерного зрения, таким как обнаружение объектов, картирование активации классов и выделение значимых объектов, дополнительно подтверждают превосходство Res2Net над современными базовыми методами. Исходный код и обученные модели доступны по этому URL.*

ImageNet/Acc 0,7865

Быстрое начало

50

ResNeXt101_64x4d

https://paperswithcode.com/model/res2net

Абстракт

Представлять признаки в разных масштабах очень важно для множества задач компьютерного зрения. Последние достижения в области базовых свёрточных нейронных сетей (CNN) постоянно демонстрируют более сильную* Многомасштабная способность представления, приводящая к постоянному увеличению производительности в широком спектре приложений.

Однако большинство существующих методов представляют многомасштабные функции послойно. В этой статье мы предлагаем новый строительный блок для свёрточных нейронных сетей (CNN), а именно Res2Net, путём создания иерархических остаточных соединений внутри одного остаточного блока. Res2Net представляет многомасштабные признаки на детальном уровне и увеличивает диапазон восприимчивых полей для каждого слоя сети.

Предложенный блок Res2Net можно подключить к современным базовым моделям CNN, таким как ResNet, ResNeXt и DLA. Мы оцениваем блок Res2Net на всех этих моделях и демонстрируем постоянное увеличение производительности по сравнению с базовыми моделями на широко используемых наборах данных, таких как CIFAR-100 и ImageNet. Дальнейшие исследования и экспериментальные результаты по репрезентативным задачам компьютерного зрения, таким как обнаружение объектов, сопоставление активации классов и выделение заметных объектов, дополнительно подтверждают превосходство Res2Net над современными базовыми методами. Исходный код и обученные модели доступны по этому URL.

Примечание: часть текста не удалось перевести из-за отсутствия контекста. Модели CNN, такие как ResNet, ResNeXt и DLA. Мы оцениваем блок Res2Net на всех этих моделях и демонстрируем стабильное повышение производительности по сравнению с базовыми моделями на широко используемых наборах данных, таких как CIFAR-100 и ImageNet. Дальнейшие исследования и экспериментальные результаты по репрезентативным задачам компьютерного зрения, таким как обнаружение объектов, сопоставление активации классов и выделение заметных объектов, дополнительно подтверждают превосходство Res2Net над современными базовыми методами. Исходный код и обученные модели доступны по этому URL https.

ResNeXt152_32x4d.

Res2Net: новая архитектура многомасштабного магистрального направления.

Представление признаков в нескольких масштабах имеет большое значение для множества задач зрения. Недавние достижения в области магистральных свёрточных нейронных сетей (CNN) постоянно демонстрируют более сильные возможности представления в нескольких масштабах, что приводит к стабильному повышению производительности в широком спектре приложений. Однако большинство существующих методов представляют мультимасштабные функции послойно. В этой статье мы предлагаем новый строительный блок для CNN, называемый Res2Net, путём создания иерархических остаточных соединений внутри одного остаточного блока. Res2Net представляет мультимасштабные признаки на детальном уровне и увеличивает диапазон восприимчивых полей для каждого слоя сети. Предлагаемый блок Res2Net можно подключить к современным магистральным моделям CNN, таким как ResNet, ResNeXt и DLA. Мы оцениваем блок Res2Net на всех этих моделях и показываем стабильное улучшение производительности по сравнению со стандартными моделями на широко используемых наборах данных, например CIFAR-100 и ImageNet. Дополнительные исследования и экспериментальные результаты по типичным задачам компьютерного зрения, таким как обнаружение объектов, сопоставление активации классов и выделение заметных объектов, также подтверждают превосходство Res2Net над существующими базовыми методами. Исходный код и обученные модели доступны по этому URL.

ImageNet/Acc 0,7898.

Быстрый старт.

ResNeXt152_64x4d.

Res2Net: новая архитектура многомасштабного магистрального направления.

...

ImageNet/Acc 0,7898.

Быстрый старт. В данном тексте представлены описания моделей и результаты их тестирования. Основной язык текста — английский.

В тексте идёт речь о моделях ResNeXt и DenseNet, которые были использованы для решения задач классификации и обнаружения объектов. Авторы утверждают, что увеличение мощности модели (путём увеличения количества параметров) более эффективно, чем увеличение глубины или ширины сети. Также сообщается, что модели ResNeXt заняли второе место в соревновании ILSVRC 2016.

Модели ResNeXt также были протестированы на наборах данных ImageNet-5K и COCO, показав лучшие результаты по сравнению с аналогами на основе архитектуры ResNet. Код и модели доступны онлайн.

Также в тексте описывается архитектура DenseNet и приводятся результаты её тестирования на различных задачах распознавания объектов. Модели DenseNet показали хорошие результаты и требуют меньше вычислений для достижения высокой производительности. Код и предварительно обученные модели также доступны онлайн. Перевод текста:

<td>ImageNet/Acc 0.7681</td> <td><a href="https://github.com/PaddlePaddle/PaddleClas/blob/release/2.3/docs/en/ImageNet_models_en.md">Быстрый старт</a></td> <tr> <td>60</td> <td>DenseNet201</td> <td><a href="https://paperswithcode.com/paper/densely-connected-convolutional-networks">Плотно связанные свёрточные сети</a></td> <td><details><summary>Аннотация</summary><div>Недавние исследования показали, что свёрточные нейронные сети могут быть значительно глубже, точнее и эффективнее в обучении, если они содержат короткие связи между слоями, близкими к входным, и слоями, близкими к выходным. В этой статье мы принимаем это наблюдение и представляем плотную свёрточную сеть (DenseNet), которая соединяет каждый слой со всеми остальными слоями в прямом направлении. В то время как традиционные свёрточные сети с L слоями имеют L соединений — одно между каждым слоем и последующим слоем — наша сеть имеет L(L+1)/2 прямых соединения. Для каждого слоя карты признаков всех предыдущих слоёв используются в качестве входных данных, а его собственные карты признаков используются в качестве входов во все последующие слои. DenseNets имеют несколько неоспоримых преимуществ: они облегчают проблему исчезающего градиента, усиливают распространение признаков, поощряют повторное использование признаков и существенно сокращают количество параметров. Мы оцениваем предложенную нами архитектуру на четырёх высококонкурентных задачах распознавания объектов (CIFAR-10, CIFAR-100, SVHN и ImageNet). DenseNets достигают значительных улучшений по сравнению с современными достижениями в большинстве из них, при этом требуя меньше вычислений для достижения высокой производительности. Код и предварительно обученные модели доступны по этому URL https.</div></details></td> <td>ImageNet/Acc 0.7763</td> <td><a href="https://github.com/PaddlePaddle/PaddleClas/blob/release/2.3/docs/en/ImageNet_models_en.md">Быстрый старт</a></td> </tr> <tr> <td>61</td> <td>DenseNet264</td> <td><a href="https://paperswithcode.com/paper/densely-connected-convolutional-networks">Densely Connected Convolutional Networks</a></td> <td><details><summary>Abstract</summary><div>Recent work has shown that convolutional networks can be substantially deeper, more accurate, and efficient to train if they contain shorter connections between layers close to the input and those close to the output. In this paper, we embrace this observation and introduce the Dense Convolutional Network (DenseNet), which connects each layer to every other layer in a feed-forward fashion. Whereas traditional convolutional networks with L layers have L connections - one between each layer and its subsequent layer - our network has L(L+1)/2 direct connections. For each layer, the feature-maps of all preceding layers are used as inputs, and its own feature-maps are used as inputs into all subsequent layers. DenseNets have several compelling advantages: they alleviate the vanishing-gradient problem, strengthen feature propagation, encourage feature reuse, and substantially reduce the number of parameters. We evaluate our proposed architecture on four highly competitive object recognition benchmark tasks (CIFAR-10, CIFAR-100, SVHN, and ImageNet). DenseNets obtain significant improvements over the state-of-the-art on most of them, whilst requiring less computation to achieve high performance. Code and pre-trained models are available at this https URL.</div></details></td> <td>ImageNet/Acc 0.7796</td> <td><a href="https://github.com/PaddlePaddle/PaddleClas/blob/release/2.3/docs/en/ImageNet_models_en.md">Быстрый старт</a></td> </tr> <tr> <td>62</td> <td>DPN68</td> <td><a href="https://paperswithcode.com/paper/dual-path-networks">Dual Path Networks</a></td> <td><details><summary>Abstract</summary><div>В этой работе мы представляем простую, высокоэффективную и модульную двойную сетевую сеть (DPN) для классификации изображений, которая представляет новую топологию внутренних путей соединения. Выявляя эквивалентность современного остаточного</ В рамках HORNN мы находим, что ResNet позволяет повторно использовать функции, в то время как DenseNet позволяет исследовать новые функции, и то и другое важно для обучения хорошим представлениям.

Чтобы воспользоваться преимуществами обеих топологий путей, предложенная нами Dual Path Network (DPN) имеет общие черты, сохраняя при этом гибкость для исследования новых функций через архитектуры с двумя путями. Обширные эксперименты на трёх эталонных наборах данных, ImagNet-1k, Places365 и PASCAL VOC, ясно демонстрируют превосходство предложенной DPN по сравнению с современными достижениями.

В частности, на наборе данных ImagNet-1k неглубокая DPN превосходит лучший ResNeXt-101(64x4d), имея на 26% меньший размер модели, на 25% меньше вычислительных затрат и на 8% меньшее потребление памяти, а более глубокая DPN (DPN-131) ещё больше продвигает вперёд производительность одной модели на уровне современных достижений примерно в 2 раза быстрее скорости обучения. Эксперименты на крупномасштабном наборе данных сцены Places365, наборе данных обнаружения PASCAL VOC и наборе данных сегментации PASCAL VOC также демонстрируют его неизменно лучшую производительность по сравнению с DenseNet, ResNet и новейшей моделью ResNeXt в различных приложениях. В данной работе представлен простой, высокоэффективный и модульный Двойной путь сети (DPN) для классификации изображений, который представляет новую топологию путей соединения внутри.

Раскрывая эквивалентность современных остаточных сетей (ResNet) и плотно свёрточных сетей (DenseNet) в рамках HORNN-фреймворка, мы обнаруживаем, что ResNet позволяет повторно использовать функции, в то время как DenseNet позволяет исследовать новые функции, которые важны для обучения хорошим представлениям.

Чтобы воспользоваться преимуществами обеих топологий пути, предложенная нами сеть Dual Path Network имеет общие функции, сохраняя при этом гибкость для исследования новых функций через архитектуры двойного пути. Обширные эксперименты на трёх эталонных наборах данных, ImagNet-1k, Places365 и PASCAL VOC, ясно демонстрируют превосходную производительность предложенного DPN по сравнению с современными достижениями. В частности, на наборе данных ImagNet-1k неглубокая DPN превосходит лучший ResNeXt-101(64x4d) с 26% меньшим размером модели, 25% меньшими вычислительными затратами и 8% меньшим потреблением памяти, а более глубокая DPN (DPN-131) ещё больше повышает производительность одной модели по сравнению с современным уровнем примерно в 2 раза быстрее скорости обучения. Эксперименты на крупномасштабном наборе данных сцены Places365, наборе данных обнаружения PASCAL VOC и наборе данных сегментации PASCAL VOC также демонстрируют его неизменно лучшую производительность по сравнению с DenseNet, ResNet и новейшей моделью ResNeXt в различных приложениях. Современные показатели производительности одной модели с примерно в 2 раза более высокой скоростью обучения.

Эксперименты на крупномасштабном наборе данных Places365, наборе данных для обнаружения PASCAL VOC и наборе данных сегментации PASCAL VOC также демонстрируют его неизменно более высокую производительность по сравнению с DenseNet, ResNet и новейшей моделью ResNeXt в различных приложениях.

ImageNet/Acc 0,807

Быстрое начало

67 VGG11

https://paperswithcode.com/method/vgg

Аннотация

В этой работе мы исследуем влияние глубины свёрточной сети на её точность в условиях крупномасштабного распознавания изображений. Наш основной вклад — это тщательная оценка сетей с увеличивающейся глубиной с использованием архитектуры с очень маленькими (3x3) фильтрами свёртки, которая показывает, что значительного улучшения предыдущих конфигураций можно достичь, увеличивая глубину до 16–19 слоёв веса. Эти результаты легли в основу нашей заявки на ImageNet Challenge 2014, где наша команда заняла первое и второе места соответственно в треках локализации и классификации. Мы также показываем, что наши представления хорошо обобщаются на другие наборы данных, где они достигают современных результатов. Мы сделали две наши лучшие модели ConvNet общедоступными, чтобы способствовать дальнейшим исследованиям использования глубоких визуальных представлений в компьютерном зрении.

ImageNet/Acc 0,693

Быстрое начало

68 VGG13

https://paperswithcode.com/method/vgg

Аннотация

В этой работе мы исследуем влияние глубины свёрточной сети на её точность в условиях крупномасштабного распознавания изображений. Наш основной вклад — это тщательная оценка сетей с увеличивающейся глубиной с использованием архитектуры с очень маленькими (3x3) фильтрами свёртки, которая показывает, что значительного улучшения предыдущих конфигураций можно достичь, увеличивая глубину до 16–19 слоёв веса. Эти результаты легли в основу нашей заявки на ImageNet Challenge 2014, где наша команда заняла первое и второе места соответственно в треках локализации и классификации. Мы также показываем, что наши представления хорошо обобщаются на другие наборы данных, где они достигают современных результатов. Мы сделали две наши лучшие модели ConvNet общедоступными, чтобы способствовать дальнейшим исследованиям использования глубоких визуальных представлений в компьютерном зрении.

ImageNet/Acc 0,7

Быстрое начало

69 VGG16

https://paperswithcode.com/method/vgg

Аннотация

В этой работе мы исследуем влияние глубины свёрточной сети на её точность в условиях крупномасштабного распознавания изображений. Наш основной вклад — это тщательная оценка сетей с увеличивающейся глубиной с использованием архитектуры с очень маленькими (3x3) фильтрами свёртки, которая показывает, что значительного улучшения предыдущих конфигураций можно достичь, увеличивая глубину до 16–19 слоёв веса. Эти результаты легли в основу нашей заявки на ImageNet Challenge 2014, где наша команда заняла первое и второе места соответственно в треках локализации и классификации. Мы также показываем, что наши представления хорошо обобщаются на другие наборы данных, где они достигают современных результатов. Мы сделали две наши лучшие модели ConvNet общедоступными, чтобы способствовать дальнейшим исследованиям в области использования глубоких визуальных представлений в компьютерном зрении.

ImageNet/Acc 0,72

Быстрый старт

VGG19

В этой работе мы исследуем влияние глубины свёрточной сети на её точность при распознавании изображений большого масштаба. Наш основной вклад — это тщательная оценка сетей с увеличивающейся глубиной с использованием архитектуры с очень маленькими (3x3) фильтрами свёртки, которая показывает, что значительное улучшение по сравнению с предыдущими конфигурациями может быть достигнуто путём увеличения глубины до 16–19 слоёв весов. Эти результаты легли в основу нашей заявки на ImageNet Challenge 2014, где наша команда заняла первое и второе места соответственно в треках локализации и классификации. Мы также показываем, что наши представления хорошо обобщаются на другие наборы данных, где они достигают результатов, соответствующих современному уровню развития.

Мы сделали две наши лучшие модели ConvNet общедоступными, чтобы способствовать дальнейшим исследованиям в области использования глубоких визуальных представлений в компьютерном зрении.

ImageNet/Acc 0,726

Быстрый старт

AlexNet

Мы обучили большую глубокую свёрточную нейронную сеть классифицировать 1,2 миллиона изображений высокого разрешения в конкурсе ImageNet LSVRC-2010 на 1000 различных классов. На тестовых данных мы достигли ошибок первого и пятого уровня 37,5% и 17,0%, что значительно лучше предыдущего современного уровня. Нейронная сеть, имеющая 60 миллионов параметров и 650 000 нейронов, состоит из пяти свёрточных слоёв, некоторые из которых сопровождаются слоями максимального пула, и трёх полностью связанных слоёв с окончательным 1000-полосным softmax. Чтобы ускорить обучение, мы использовали ненасыщающие нейроны и очень эффективную реализацию свёртки на GPU. Чтобы уменьшить переобучение в полностью связанных слоях, мы применили недавно разработанный метод регуляризации под названием «выпадение», который оказался очень эффективным. Мы также представили вариант этой модели на конкурсе ILSVRC-2012 и достигли ошибки теста топ-5 15,3%, по сравнению с 26,2%, достигнутыми вторым лучшим участником.

Xception41

Мы представляем интерпретацию модулей Inception в свёрточных нейронных сетях как промежуточный шаг между обычной свёрткой и операцией свёртки с разделением по глубине (свёртка по глубине, за которой следует точечная свёртка). В этом свете свёртку с разделением по глубине можно понимать как модуль Inception с максимально большим количеством башен. Это наблюдение приводит нас к предложению новой глубокой свёрточной нейронной сети, вдохновлённой Inception, где модули Inception были заменены свёртками с разделением по глубине. Мы показываем, что эта архитектура, получившая название Xception, немного превосходит Inception V3 на наборе данных ImageNet (который Inception V3 Xception: Глубокое обучение с использованием свёрточных нейронных сетей с глубинно-разделимыми свёртками

Мы представляем интерпретацию модулей Inception в свёрточных нейронных сетях как промежуточный шаг между обычной свёрткой и операцией глубинно-разделимой свёртки (глубинная свёртка, за которой следует точечная свёртка). В этом свете глубинно-разделимую свёртку можно рассматривать как модуль Inception с максимально большим количеством блоков. Это наблюдение приводит нас к предложению новой архитектуры глубокой свёрточной нейронной сети, вдохновлённой Inception, где модули Inception были заменены на глубинно-разделимые свёртки. Мы показываем, что эта архитектура, получившая название Xception, немного превосходит Inception V3 на наборе данных ImageNet (для которого был разработан Inception V3) и значительно превосходит Inception V3 на более крупном наборе данных для классификации изображений, состоящем из 350 миллионов изображений и 17 000 классов. Поскольку архитектура Xception имеет такое же количество параметров, как и Inception V3, прирост производительности обусловлен не увеличением мощности, а скорее более эффективным использованием параметров модели. В этом тексте рассказывается о различных архитектурах свёрточных нейронных сетей.

Свёрточная нейронная сеть (convolutional neural network, CNN) — это тип искусственных нейронных сетей, которые используются для анализа визуальных данных. Они широко применяются в компьютерном зрении и обработке изображений.

В тексте упоминаются следующие архитектуры свёрточных нейросетей:

Xception;

DarkNet53;

EfficientNetB0.

Xception — это архитектура свёрточной нейронной сети, которая была предложена как альтернатива Inception V3. В этой архитектуре модули Inception заменены на depthwise separable convolutions. Авторы исследования показывают, что Xception немного превосходит Inception V3 на наборе данных ImageNet и значительно превосходит его на более крупном наборе данных, который содержит 350 миллионов изображений и 17 000 классов.

DarkNet53 — это обновлённая версия YOLO (You Only Look Once), которая представляет собой систему обнаружения объектов. В новой версии были внесены некоторые изменения в дизайн модели, а также обучена новая сеть. Результаты показали, что DarkNet53 достигает точности, сравнимой с SSD, но работает в три раза быстрее.

EfficientNetB0 — это ещё одна архитектура свёрточной нейросети, которая разработана с целью оптимизации использования ресурсов при масштабировании моделей. Авторы статьи провели систематическое исследование различных методов масштабирования и предложили новый подход, который позволяет достичь лучшей точности при меньшем использовании ресурсов. Модели масштабирования позволяют сделать вывод, что тщательный баланс глубины, ширины и разрешения сети может привести к повышению производительности. На основе этого наблюдения мы предлагаем новый метод масштабирования, который равномерно масштабирует все измерения глубины/ширины/разрешения с использованием простого, но высокоэффективного составного коэффициента.

Мы демонстрируем эффективность этого метода на примере масштабирования MobileNets и ResNet. Чтобы пойти ещё дальше, мы используем поиск нейронной архитектуры для разработки новой базовой сети и масштабируем её, чтобы получить семейство моделей под названием EfficientNets, которые достигают гораздо более высокой точности и эффективности по сравнению с предыдущими ConvNets. В частности, наша модель EfficientNet-B7 достигает 84,3% точности top-1 на ImageNet, будучи при этом в 8,4 раза меньше и в 6,1 раза быстрее в процессе логического вывода по сравнению с лучшей существующей ConvNet. Наши модели EfficientNets также хорошо переносятся и достигают современного уровня точности на CIFAR-100 (91,7%), Flowers (98,8%) и трёх других наборах данных для трансферного обучения, имея на порядок меньше параметров. Исходный код доступен по этому URL.

ImageNet/Acc 0.7738

EfficientNetB1

Модели EfficientNet: переосмысление масштабирования моделей для свёрточных нейронных сетей.

Свёрточные нейронные сети (ConvNets) обычно разрабатываются с фиксированным бюджетом ресурсов, а затем масштабируются для повышения точности, если доступно больше ресурсов. В этой статье мы систематически изучаем масштабирование моделей и определяем, что тщательное балансирование глубины, ширины и разрешения сети может повысить производительность. Основываясь на этом наблюдении, мы предлагаем новый метод масштабирования, который равномерно масштабирует все размеры глубины/ширины/разрешения, используя простой, но очень эффективный составной коэффициент. Мы демонстрируем эффективность этого подхода на примерах масштабирования MobileNets и ResNet.

Чтобы пойти ещё дальше, мы применяем поиск нейронной архитектуры для создания новой базовой сети и масштабируем её для получения семейства моделей под названием EfficientNets, которые демонстрируют значительно более высокую точность и эффективность по сравнению с предыдущими ConvNets. В частности, наша модель EfficientNet-B7 достигает точности top-1 84,3 % на ImageNet, при этом она в 8,4 раза компактнее и в 6,1 раза быстрее при логическом выводе по сравнению с лучшими существующими ConvNets. Наши модели EfficientNets также успешно переносятся и демонстрируют современный уровень точности на CIFAR-100 (91,7 %), Flowers (98,8 %) и трёх других наборах данных для переноса обучения, обладая на порядок меньшим количеством параметров. Исходный код можно найти по этому URL. Эффективные сети: новый подход к масштабированию свёрточных нейронных сетей

Свёрточные нейронные сети (ConvNets) обычно разрабатываются в рамках фиксированного бюджета ресурсов, а затем масштабируются для повышения точности при наличии дополнительных ресурсов. В этой статье мы систематически изучаем масштабирование моделей и определяем, что тщательное балансирование глубины, ширины и разрешения сети может привести к повышению производительности.

Основываясь на этом наблюдении, мы предлагаем новый метод масштабирования, который равномерно масштабирует все измерения глубины/ширины/разрешения с использованием простого, но высокоэффективного составного коэффициента. Мы демонстрируем эффективность этого метода на примере масштабирования MobileNets и ResNet.

Чтобы пойти ещё дальше, мы используем поиск архитектуры нейронной сети для разработки новой базовой сети и масштабируем её, чтобы получить семейство моделей под названием «Эффективные сети», которые обеспечивают значительно более высокую точность и эффективность по сравнению с предыдущими ConvNets. В частности, наша Эффективная сеть B7 достигает 84,3% точности top-1 на ImageNet, будучи при этом в 8,4 раза меньше и в 6,1 раза быстрее в процессе логического вывода, чем лучшая существующая ConvNet. Наши Эффективные сети также хорошо переносятся и достигают современного уровня точности на CIFAR-100 (91,7%), Flowers (98,8%) и трёх других наборах данных для переноса обучения, имея на порядок меньше параметров. Исходный код доступен по этому URL. Представляем класс эффективных моделей под названием MobileNets для мобильных и встраиваемых систем компьютерного зрения. Модели MobileNets основаны на оптимизированной архитектуре, использующей покомпонентные свёрточные слои для построения лёгких глубоких нейронных сетей. Мы вводим два простых глобальных гиперпараметра, которые эффективно балансируют между задержкой и точностью. Эти гиперпараметры позволяют разработчику модели выбрать модель подходящего размера для своего приложения с учётом ограничений задачи.

Мы проводим обширные эксперименты по компромиссам между ресурсами и точностью и демонстрируем высокую производительность по сравнению с другими популярными моделями классификации ImageNet. Затем мы показываем эффективность MobileNets в широком спектре приложений и случаев использования, включая обнаружение объектов, точную классификацию, атрибуты лица и крупномасштабную геолокализацию. Вижн-приложения. MobileNets основаны на оптимизированной архитектуре, которая использует свёрточные слои с разделением по глубине для создания лёгких глубоких нейронных сетей. Мы представляем два простых глобальных гиперпараметра, которые эффективно балансируют между задержкой и точностью. Эти гиперпараметры позволяют разработчику модели выбрать модель подходящего размера для своего приложения в соответствии с ограничениями задачи.

Мы проводим обширные эксперименты по компромиссам между ресурсами и точностью и показываем высокие результаты по сравнению с другими популярными моделями классификации ImageNet. Затем мы демонстрируем эффективность MobileNets в широком спектре приложений и случаев использования, включая обнаружение объектов, мелкозернистую классификацию, атрибуты лица и крупномасштабную геолокализацию.

ImageNet/Acc 0.6881

MobileNetV2

В этой статье мы описываем новую мобильную архитектуру MobileNetV2, которая улучшает современные показатели производительности мобильных моделей в различных задачах и бенчмарках, а также в спектре разных размеров моделей. Мы также описываем эффективные способы применения этих мобильных моделей к обнаружению объектов в новой структуре, которую мы называем SSDLite. Кроме того, мы показываем, как создавать мобильные модели семантической сегментации через сокращённую форму DeepLabv3, которую мы называем Mobile DeepLabv3.

Архитектура MobileNetV2 основана на инвертированной остаточной структуре, где вход и выход остаточного блока представляют собой тонкие слои узких мест, в отличие от традиционных остаточных моделей, которые используют расширенные представления на входе. В MobileNetV2 используются лёгкие свёрточные слои для фильтрации признаков в промежуточном слое расширения. Кроме того, мы считаем важным удалять нелинейности в узких слоях, чтобы сохранить репрезентативную силу. Мы демонстрируем, что это повышает производительность, и предоставляем интуицию, которая привела к такому дизайну. Наконец, наш подход позволяет отделить входные и выходные домены от выразительности преобразования, что обеспечивает удобную основу для дальнейшего анализа.

Мы измеряем нашу производительность по классификации Imagenet, обнаружению объектов COCO, сегментации изображений VOC. Мы оцениваем компромиссы между точностью и количеством операций, измеряемых умножением-сложением (MAdd), а также количеством параметров.

ImageNet/Acc 0.7215

MobileNetV2_x0_25

В этой статье мы описываем новую мобильную архитектуру MobileNetV2, которая улучшает современные показатели производительности мобильных моделей в различных задачах и бенчмарках, а также в спектре разных размеров моделей. Мы также описываем эффективные способы применения этих мобильных моделей к обнаружению объектов в новой структуре, которую мы называем SSDLite. Кроме того, мы показываем, как создавать мобильные модели семантической сегментации через сокращённую форму DeepLabv3, которую мы называем Mobile DeepLabv3.

Архитектура MobileNetV2 основана на инвертированной остаточной структуре, где вход и выход остаточного блока представляют собой тонкие слои узких мест, в отличие от традиционных остаточных моделей, которые используют расширенные представления на входе. В MobileNetV2 используются лёгкие свёрточные слои для фильтрации признаков в промежуточном слое расширения. Мы демонстрируем, что это улучшает производительность и предоставляем интуицию, которая привела к такому дизайну.

Наконец, наш подход позволяет отделить области ввода/вывода от выразительности преобразования, что обеспечивает удобную основу для дальнейшего анализа. Мы измеряем нашу производительность на классификации ImageNet, обнаружении объектов COCO, сегментации изображений VOC. Мы оцениваем компромиссы между точностью и количеством операций, измеряемых умножением-сложением (MAdd), а также количеством параметров.

94

MobileNetV2_x0_5

MobileNetV2: Inverted Residuals and Linear Bottlenecks

В этой статье мы описываем новую мобильную архитектуру MobileNetV2, которая улучшает современное состояние производительности мобильных моделей в различных задачах и бенчмарках, а также в спектре разных размеров моделей. Мы также описываем эффективные способы применения этих мобильных моделей для обнаружения объектов в новой структуре, которую мы называем SSDLite. Кроме того, мы демонстрируем, как создавать мобильные модели семантической сегментации через уменьшенную форму DeepLabv3, которую мы называем Mobile DeepLabv3.

Архитектура MobileNetV2 основана на инвертированной остаточной структуре, где вход и выход остаточного блока представляют собой тонкие слои узких мест, в отличие от традиционных остаточных моделей, которые используют расширенные представления во входных данных. В MobileNetV2 используются лёгкие свёрточные фильтры для фильтрации признаков в промежуточном слое расширения. Кроме того, мы считаем важным удалять нелинейности в узких слоях, чтобы сохранить репрезентативную силу. Мы демонстрируем, что это повышает производительность, и предоставляем интуитивное понимание, которое привело к этому дизайну. Наконец, наш подход позволяет отделять области ввода/вывода от выразительности трансформации, что обеспечивает удобную основу для дальнейшего анализа.

Мы измеряем производительность на классификации ImageNet, обнаружении объектов COCO и сегментации изображений VOC. Оцениваем компромисс между точностью и числом операций, измеренных умножением-сложением (MAdd), и количеством параметров.

ImageNet/Acc 0.6503

Быстрый старт

95

MobileNetV2_x0_75

MobileNetV2: Inverted Residuals and Linear Bottlenecks

В этой статье описывается новая мобильная архитектура MobileNetV2, улучшающая современное состояние производительности мобильных моделей на множестве задач и бенчмарков, а также для разных размеров моделей. Также описываются эффективные методы применения этих моделей для обнаружения объектов через новую структуру, называемую SSDLite. Дополнительно демонстрируется создание мобильных моделей семантической сегментации с помощью уменьшенной версии DeepLabv3 под названием Mobile DeepLabv3.

Мобильная архитектура MobileNetV2 базируется на инвертированных остаточных структурах, где входом и выходом остаточного блока являются узкие слои, в противоположность традиционным остаточным моделям, использующим расширенные представления на входе. MobileNetV2 применяет облегчённые свёрточные фильтры для обработки признаков в промежуточных слоях расширения. Также важно исключить нелинейности в узких слоях для сохранения репрезентативной силы. Это улучшает производительность, о чём свидетельствует предоставленная интуиция, приведшая к такому дизайну. Наш подход позволяет разделить области ввода/вывода и выразительность трансформации, обеспечивая удобную основу для последующего анализа. Точность и количество операций, измеряемых умножением-сложением (MAdd), а также количество параметров.

MobileNetV3_large_x0_

98

В статье «Поиск MobileNetV3» представлены модели следующего поколения MobileNets, основанные на сочетании взаимодополняющих методов поиска, а также новой архитектуре. MobileNetV3 настроен на мобильные телефоны с помощью сочетания аппаратно-зависимого поиска архитектуры сети (NAS), дополненного алгоритмом NetAdapt, а затем усовершенствованного за счёт новых архитектурных достижений. В этой статье рассматривается вопрос о том, как автоматизированные алгоритмы поиска и дизайн сети могут работать вместе, чтобы использовать взаимодополняющие подходы для улучшения общего состояния дел в этой области. В результате этого процесса мы создаём две новые модели MobileNet для выпуска: MobileNetV3-Large и MobileNetV3-Small, которые предназначены для случаев использования с высокими и низкими ресурсами. Эти модели затем адаптируются и применяются к задачам обнаружения объектов и семантической сегментации. Для задачи семантической сегментации (или любого плотного предсказания пикселей) мы предлагаем новый эффективный декодер сегментации Lite Reduced Atrous Spatial Pyramid Pooling (LR-ASPP). Мы достигаем новых результатов в области мобильной классификации, обнаружения и сегментации. MobileNetV3-Large на 3,2% точнее при классификации ImageNet и снижает задержку на 15% по сравнению с MobileNetV2. MobileNetV3-Small на 4,6% точнее и снижает задержку на 5% по сравнению с MobileNetV2. Обнаружение MobileNetV3-Large происходит на 25% быстрее при примерно такой же точности, что и у MobileNetV2 при обнаружении COCO. MobileNetV3-Large LR-ASPP на 30% быстрее, чем R-ASPP MobileNetV2, при аналогичной точности для сегментации Cityscapes. 102. MobileNetV3_large_x1_0-FPGM

Searching for MobileNetV4

Мы представляем следующее поколение MobileNets, основанное на сочетании взаимодополняющих методов поиска, а также новой архитектуры. MobileNetV3 настроен на мобильные телефоны с помощью комбинации аппаратно-зависимого поиска сетевой архитектуры (NAS), дополненного алгоритмом NetAdapt, и впоследствии улучшен благодаря новым достижениям в архитектуре. В этой статье мы начинаем исследование того, как автоматизированные алгоритмы поиска и дизайн сети могут работать вместе, чтобы использовать взаимодополняющие подходы, улучшая общее состояние дел.

В ходе этого процесса мы создаём две новые модели MobileNet для выпуска: MobileNetV3-Large и MobileNetV3-Small, которые предназначены для случаев использования с высокими и низкими ресурсами. Эти модели затем адаптируются и применяются к задачам обнаружения объектов и семантической сегментации. Для задачи семантической сегментации (или любого плотного предсказания пикселей) мы предлагаем новый эффективный декодер сегментации Lite Reduced Atrous Spatial Pyramid Pooling (LR-ASPP). Мы достигаем новых результатов в области мобильной классификации, обнаружения и сегментации.

MobileNetV3-Large на 3,2% точнее при классификации ImageNet и снижает задержку на 15% по сравнению с MobileNetV2. MobileNetV3-Small на 4,6% точнее и снижает задержку на 5% по сравнению с MobileNetV2. Обнаружение MobileNetV3-Large происходит на 25% быстрее при примерно той же точности, что и у MobileNetV2 на COCO. MobileNetV3-Large LR-ASPP на 30% быстрее, чем R-ASPP у MobileNetV2 при аналогичной точности для сегментации Cityscapes.

103. MobileNetV3_large_x1_0_PACT

Searching for MobileNetV5

Мы представляем следующее поколение MobileNets, основанное на сочетании взаимодополняющих методов поиска, а также новой архитектуры. MobileNetV3 настроен на мобильные телефоны с помощью комбинации аппаратно-зависимого поиска сетевой архитектуры (NAS), дополненного алгоритмом NetAdapt, и впоследствии улучшен благодаря новым достижениям в архитектуре. В этой статье мы начинаем исследование того, как автоматизированные алгоритмы поиска и дизайн сети могут работать вместе, чтобы использовать взаимодополняющие подходы, улучшая общее состояние дел.

В ходе этого процесса мы создаём две новые модели MobileNet для выпуска: MobileNetV3-Large и MobileNetV3-Small, которые предназначены для случаев использования с высокими и низкими ресурсами. Эти модели затем адаптируются и применяются к задачам обнаружения объектов и семантической сегментации. Для задачи семантической сегментации (или любого плотного предсказания пикселей) мы предлагаем новый эффективный декодер сегментации Lite Reduced Atrous Spatial Pyramid Pooling (LR-ASPP).

Мы достигаем новых результатов в области мобильной классификации, обнаружения и сегментации. MobileNetV3-Large на 3,2% точнее при классификации ImageNet и снижает задержку на 15% по сравнению с MobileNetV2. MobileNetV3-Small на 4,6% точнее и снижает задержку на 5% по сравнению с MobileNetV2. Обнаружение MobileNetV3-Large происходит на 25% быстрее при примерно той же точности, что и у MobileNetV2 на COCO. MobileNetV3-Large LR-ASPP на 30% быстрее, чем R-ASPP у MobileNetV2 при аналогичной точности для сегментации Cityscapes. Мы представляем следующее поколение MobileNets, основанное на сочетании взаимодополняющих методов поиска, а также нового дизайна архитектуры. MobileNetV3 настроен для мобильных телефонов с помощью комбинации поиска в архитектуре сети (NAS), учитывающего аппаратные средства, дополненного алгоритмом NetAdapt, и впоследствии улучшен благодаря новым достижениям в области архитектуры. В этой статье мы начинаем исследование того, как автоматизированные алгоритмы поиска и дизайн сети могут работать вместе, чтобы использовать взаимодополняющие подходы, улучшая общее состояние техники.

В результате этого процесса мы создаём две новые модели MobileNet для выпуска: MobileNetV3-Large и MobileNetV3-Small, которые предназначены для случаев использования с высокими и низкими ресурсами. Эти модели затем адаптируются и применяются к задачам обнаружения объектов и семантической сегментации. Для задачи семантической сегментации (или любого плотного предсказания пикселей) мы предлагаем новый эффективный декодер сегментации Lite Reduced Atrous Spatial Pyramid Pooling (LR-ASPP). Мы достигаем новых результатов в области мобильной классификации, обнаружения и сегментации.

MobileNetV3-Large на 3,2% точнее при классификации ImageNet и снижает задержку на 15% по сравнению с MobileNetV2. MobileNetV3-Small на 4,6% точнее и снижает задержку на 5% по сравнению с MobileNetV2. Обнаружение MobileNetV3-Large происходит на 25% быстрее при примерно такой же точности, что и у MobileNetV2 при обнаружении COCO. MobileNetV3-Large LR-ASPP на 30% быстрее, чем R-ASPP у MobileNetV2, при аналогичной точности для сегментации Cityscapes. Дизайн

В настоящее время архитектура нейронных сетей в основном определяется косвенным показателем сложности вычислений, то есть FLOPs. Однако прямой показатель, например, скорость, также зависит от других факторов, таких как стоимость доступа к памяти и характеристики платформы. Таким образом, в этой работе предлагается оценить прямой показатель на целевой платформе, не ограничиваясь только учётом FLOPs. На основе серии контролируемых экспериментов в данной работе выводятся несколько практических рекомендаций по эффективному проектированию сети. Соответственно, представлена новая архитектура под названием ShuffleNet V2. Комплексные эксперименты по удалению компонентов подтверждают, что наша модель является передовой с точки зрения компромисса между скоростью и точностью.

ImageNet/Acc 0,5373

Быстрое начало

114 ShuffleNetV2_x0_5

ShuffleNet V2: Практические рекомендации по эффективному дизайну архитектуры CNN

В настоящее время архитектура нейронных сетей в основном определяется косвенным показателем сложности вычислений, то есть FLOPs. Однако прямой показатель, например, скорость, также зависит от других факторов, таких как стоимость доступа к памяти и характеристики платформы. Таким образом, в этой работе предлагается оценить прямой показатель на целевой платформе, не ограничиваясь только учётом FLOPs. На основе серии контролируемых экспериментов в данной работе выводятся несколько практических рекомендаций по эффективному проектированию сети. Соответственно, представлена новая архитектура под названием ShuffleNet V2. Комплексные эксперименты по удалению компонентов подтверждают, что наша модель является передовой с точки зрения компромисса между скоростью и точностью.

ImageNet/Acc 0,6032

Быстрое начало

115 ShuffleNetV2_x1_0

ShuffleNet V2: Практические рекомендации по эффективному дизайну архитектуры CNN

В настоящее время архитектура нейронных сетей в основном определяется косвенным показателем сложности вычислений, то есть FLOPs. Однако прямой показатель, например, скорость, также зависит от других факторов, таких как стоимость доступа к памяти и характеристики платформы. Таким образом, в этой работе предлагается оценить прямой показатель на целевой платформе, не ограничиваясь только учётом FLOPs. На основе серии контролируемых экспериментов в данной работе выводятся несколько практических рекомендаций по эффективному проектированию сети. Соответственно, представлена новая архитектура под названием ShuffleNet V2. Комплексные эксперименты по удалению компонентов подтверждают, что наша модель является передовой с точки зрения компромисса между скоростью и точностью.

ImageNet/Acc 0,688

Быстрое начало

116 ShuffleNetV2_x1_5

ShuffleNet V2: Практические рекомендации по эффективному дизайну архитектуры CNN

В настоящее время архитектура нейронных сетей в основном определяется косвенным показателем сложности вычислений, то есть FLOPs. Однако прямой показатель, например, скорость, также зависит от других факторов, таких как стоимость доступа к памяти и характеристики платформы. Таким образом, в этой работе предлагается оценить прямой показатель на целевой платформе, не ограничиваясь только учётом FLOPs. На основе серии контролируемых экспериментов в данной работе выводятся несколько рекомендаций по эффективному проектированию сети. Соответственно, представлена новая архитектура под названием ShuffleNet V2. Практические рекомендации для эффективного проектирования сети.

В соответствии с этим представлена новая архитектура под названием ShuffleNet V2. Комплексные эксперименты по удалению элементов подтверждают, что наша модель является передовой с точки зрения компромисса между скоростью и точностью.

ShuffleNetV2: практические рекомендации для эффективной разработки архитектуры CNN.

В настоящее время проектирование архитектуры нейронной сети в основном определяется косвенным показателем сложности вычислений, то есть FLOPs. Однако прямой показатель, например скорость, также зависит от других факторов, таких как стоимость доступа к памяти и характеристики платформы. Таким образом, в этой работе предлагается оценить прямой показатель на целевой платформе, не ограничиваясь только учётом FLOPs. На основе серии контролируемых экспериментов в этой работе выводится несколько практических рекомендаций для эффективного проектирования сетей. Соответственно, представлена новая архитектура, называемая ShuffleNet V2. Всесторонние эксперименты по удалению компонентов подтверждают, что наша модель является передовой с точки зрения компромисса между скоростью и точностью.

CSPDarkNet53.

Нейронные сети позволили современным подходам достичь невероятных результатов в задачах компьютерного зрения, таких как обнаружение объектов. Однако такой успех во многом зависит от дорогостоящих вычислительных ресурсов, что мешает людям с дешёвыми устройствами оценить передовые технологии. В этой статье мы предлагаем Cross Stage Partial Network (CSPNet), чтобы смягчить проблему, связанную с тем, что предыдущие работы требуют тяжёлых вычислений вывода из перспективы сетевой архитектуры. Мы связываем проблему с дублирующейся информацией о градиентах в оптимизации сети. Предлагаемые сети учитывают изменчивость градиентов путём интеграции карт признаков из начала и конца сетевого этапа, что в наших экспериментах сокращает вычисления на 20 % при эквивалентной или даже превосходящей точности на наборе данных ImageNet и значительно превосходит современные подходы с точки зрения AP50 на наборе данных обнаружения объектов MS COCO. CSPNet прост в реализации и достаточно универсален, чтобы справиться с архитектурами на основе ResNet, ResNeXt и DenseNet. Исходный код находится по этому URL-адресу.

GhostNet_x0_5.

Развёртывание свёрточных нейронных сетей (CNN) на встраиваемых устройствах затруднено из-за ограниченных ресурсов памяти и вычислений. Избыточность в картах признаков является важной характеристикой этих успешных CNN, но редко исследовалась при проектировании нейронных архитектур. В этой статье предлагается новый модуль Ghost для создания большего количества карт функций из дешёвых операций. Основываясь на наборе внутренних карт признаков, мы применяем ряд линейных преобразований с низкой стоимостью для создания множества карт призрачных признаков, которые могли бы полностью раскрыть информацию, лежащую в основе внутренних признаков. Предлагаемый модуль Ghost можно использовать как подключаемый модуль. Компонент для обновления существующих свёрточных нейронных сетей

Ghost bottlenecks предназначены для объединения модулей Ghost, после чего можно легко создать облегчённую архитектуру GhostNet. Эксперименты, проведённые на контрольных показателях, демонстрируют, что предложенный модуль Ghost является впечатляющей альтернативой слоёв свёртки в базовых моделях, и наша архитектура GhostNet может достичь более высокой точности распознавания (например, 75,7% точности top-1), чем MobileNetV3 при аналогичных вычислительных затратах на наборе данных классификации ImageNet ILSVRC-2012. Код доступен по этому URL https.

Абстракт

Развёртывание свёрточных нейронных сетей (CNN) на встраиваемых устройствах затруднено из-за ограниченных ресурсов памяти и вычислений. Избыточность карт признаков является важной характеристикой успешных CNN, но редко исследовалась в дизайне нейронной архитектуры. В этой статье предлагается новый модуль Ghost для генерации большего количества карт признаков с помощью дешёвых операций. Основываясь на наборе внутренних карт признаков, мы применяем серию линейных преобразований с низкой стоимостью для создания множества карт признаков-призраков, которые могут полностью раскрыть информацию, лежащую в основе внутренних признаков. Предложенный модуль Ghost можно использовать как компонент «plug-and-play» для обновления существующих свёрточных нейронных сетей. Узкие места Ghost предназначены для объединения модулей Ghost, после чего можно легко установить облегчённую архитектуру GhostNet. Эксперименты, проведённые на контрольных показателях, показывают, что предложенный модуль Ghost представляет собой впечатляющую альтернативу слоёв свёртки в базовых моделях. Наша архитектура GhostNet достигает более высокой точности распознавания, чем MobileNetV3, при аналогичных вычислительных затратах. RegNet: саморегулируемая сеть для классификации изображений

ResNet и его варианты достигли выдающихся успехов в различных задачах компьютерного зрения. Несмотря на успех в обеспечении прохождения градиента через строительные блоки, простой механизм соединения с помощью короткого пути ограничивает способность повторного исследования новых потенциально дополнительных функций из-за аддитивной функции.

В этой статье мы предлагаем ввести модуль регулятора в качестве механизма памяти для извлечения дополнительных функций, которые затем подаются в ResNet. В частности, модуль регулятора состоит из свёрточных RNN (например, свёрточные LSTM или свёрточные GRU), которые хорошо справляются с извлечением пространственно-временной информации. Мы назвали новые регулируемые сети RegNet. Модуль регулятора может быть легко реализован и добавлен к любой архитектуре ResNet.

Мы также применяем модуль регулятора для улучшения Squeeze-and-Excitation ResNet, чтобы показать обобщающую способность нашего метода. Экспериментальные результаты на трёх наборах данных для классификации изображений продемонстрировали многообещающую производительность предложенной архитектуры по сравнению со стандартным ResNet, SE-ResNet и другими современными архитектурами.

Deep Layer Aggregation

Распознавание визуальных образов требует богатых представлений, охватывающих уровни от низких до высоких, масштабы от малых до больших и разрешения от тонких до грубых. Даже при глубине признаков в свёрточной сети одного слоя недостаточно: объединение и агрегирование этих представлений улучшает вывод о том, что и где находится.

Архитектурные усилия исследуют многие аспекты для создания сетевых основ, разрабатывая более глубокие или широкие архитектуры, но то, как лучше всего объединять слои и блоки в сети, заслуживает дальнейшего внимания. Хотя были включены соединения с пропусками для объединения слоёв, эти соединения сами по себе были «поверхностными» и только сливались простыми одношаговыми операциями.

Мы дополняем стандартные архитектуры более глубокой агрегацией, чтобы лучше объединять информацию между слоями. Наши структуры глубокого объединения слоёв итеративно и иерархически объединяют иерархию признаков, создавая сети с лучшей точностью и меньшим количеством параметров. Эксперименты с различными архитектурами и задачами показывают, что глубокое объединение слоёв улучшает распознавание и разрешение по сравнению с существующими схемами ветвления и слияния. Визуальное распознавание требует богатых представлений, которые охватывают уровни от низкого до высокого, масштабы от малого до большого и разрешения от мелкого до грубого. Даже при наличии глубины признаков в свёрточной сети одного слоя недостаточно: объединение и агрегирование этих представлений улучшает вывод о том, что и где находится.

Архитектурные усилия исследуют множество измерений для сетевых магистралей, разрабатывая более глубокие или широкие архитектуры, но как лучше всего агрегировать слои и блоки в сети заслуживает дальнейшего внимания. Хотя были включены пропускные соединения для объединения слоёв, эти соединения сами по себе были «поверхностными» и объединяются только простыми одношаговыми операциями. Мы дополняем стандартные архитектуры более глубокой агрегацией, чтобы лучше объединить информацию между слоями. Наши структуры глубокой агрегации слоёв итеративно и иерархически объединяют иерархию признаков, создавая сети с лучшей точностью и меньшим количеством параметров. Эксперименты с архитектурами и задачами показывают, что глубокая агрегация слоёв улучшает распознавание и разрешение по сравнению с существующими схемами ветвления и слияния. Код доступен по этому URL-адресу https. Глубокая агрегация слоёв

Визуальное распознавание требует богатых представлений, которые охватывают уровни от низких до высоких, масштабы от малых до больших и разрешения от мелких до грубых. Даже при наличии глубины признаков в свёрточной сети одного слоя недостаточно: объединение и агрегация этих представлений улучшают вывод о том, что и где находится. Архитектурные усилия исследуют множество измерений для базовых сетей, разрабатывая более глубокие или широкие архитектуры, но как лучше всего агрегировать слои и блоки в сети заслуживает дальнейшего внимания.

Хотя были включены пропускные соединения для объединения слоёв, эти соединения сами по себе были «мелкими» и объединяются только простыми одношаговыми операциями. Мы дополняем стандартные архитектуры более глубокой агрегацией, чтобы лучше объединить информацию между слоями. Наши структуры глубокой агрегации слоёв итеративно и иерархически объединяют иерархию признаков, создавая сети с лучшей точностью и меньшим количеством параметров. Эксперименты с архитектурами и задачами показывают, что глубокая агрегация слоёв улучшает распознавание и разрешение по сравнению с существующими схемами ветвления и слияния. Код доступен по этому URL-адресу https. Сети с лучшей точностью и меньшим количеством параметров. Эксперименты с различными архитектурами и задачами показывают, что агрегация глубоких слоёв улучшает распознавание и разрешение по сравнению с существующими схемами ветвления и слияния. Код доступен по этому URL https.

ImageNet/Acc 0.6321

Быстрый старт

133

ReXNet_1_5

Rethinking Channel Dimensions for Efficient Model Design

Аннотация

Разработка эффективной модели в условиях ограниченных вычислительных затрат является сложной задачей. Мы утверждаем, что точность облегчённой модели ещё больше ограничена конвенцией проектирования: поэтапной конфигурацией размеров каналов, которая выглядит как кусочно-линейная функция стадии сети. В этой статье мы изучаем эффективную конфигурацию размеров канала для повышения производительности по сравнению с конвенцией. С этой целью мы эмпирически исследуем, как правильно спроектировать отдельный слой, анализируя ранг выходной функции. Затем мы исследуем конфигурацию канала модели, ища архитектуры сетей, связанные с конфигурацией канала при ограничении вычислительных затрат. На основе исследования мы предлагаем простую, но эффективную конфигурацию канала, которую можно параметризовать индексом слоя. В результате наша предложенная модель, следующая за параметризацией канала, достигает выдающихся результатов в задачах классификации ImageNet и трансферного обучения, включая обнаружение объектов COCO, сегментацию экземпляров COCO и мелкозернистые классификации. Код и предварительно обученные модели ImageNet доступны по этому URL.

ImageNet/Acc 0.8006

Быстрый старт

134

ReXNet_1_0

Rethinking Channel Dimensions for Efficient Model Design

Аннотация

Разработка эффективной модели в условиях ограниченных вычислительных затрат является сложной задачей. Мы утверждаем, что точность облегчённой модели ещё больше ограничена конвенцией проектирования: поэтапной конфигурацией размеров каналов, которая выглядит как кусочно-линейная функция стадии сети. В этой статье мы изучаем эффективную конфигурацию размеров канала для повышения производительности по сравнению с конвенцией. С этой целью мы эмпирически исследуем, как правильно спроектировать отдельный слой, анализируя ранг выходной функции. Затем мы исследуем конфигурацию канала модели, ища архитектуры сетей, связанные с конфигурацией канала при ограничении вычислительных затрат. На основе исследования мы предлагаем простую, но эффективную конфигурацию канала, которую можно параметризовать индексом слоя. В результате наша предложенная модель, следующая за параметризацией канала, достигает выдающихся результатов в задачах классификации ImageNet и трансферного обучения, включая обнаружение объектов COCO, сегментацию экземпляров COCO и мелкозернистые классификации. Код и предварительно обученные модели ImageNet доступны по этому URL.

ImageNet/Acc 0.7746

Быстрый старт

135

ReXNet_3_0

Rethinking Channel Dimensions for Efficient Model Design

Аннотация

Разработка эффективной модели в условиях ограниченных вычислительных затрат является сложной задачей. Мы утверждаем, что точность облегчённой модели ещё больше ограничена конвенцией проектирования: поэтапной конфигурацией размеров каналов, которая выглядит как кусочно-линейная функция стадии сети. В этой статье мы изучаем эффективную конфигурацию размеров канала... Проектирование эффективной модели при ограниченных вычислительных затратах является сложной задачей. В этой статье мы исследуем конфигурацию эффективных размеров канала для повышения производительности по сравнению с общепринятыми методами.

Для этого мы эмпирически изучаем, как правильно спроектировать отдельный слой, анализируя ранг выходного признака. Затем мы исследуем канальную конфигурацию модели, находя сетевые архитектуры, связанные с канальной конфигурацией в условиях ограничения вычислительных затрат. На основе исследования мы предлагаем простую, но эффективную конфигурацию канала, которую можно параметризовать с помощью индекса слоя.

В результате наша предложенная модель, следуя параметризации канала, достигает выдающихся результатов в задачах классификации ImageNet и трансферного обучения, включая обнаружение объектов COCO, сегментацию экземпляров COCO и мелкозернистую классификацию. Код и предварительно обученные модели ImageNet доступны по этому URL-адресу https. Трансформер в Трансформере

Трансформер — это новый тип нейронной архитектуры, который кодирует входные данные как мощные признаки с помощью механизма внимания. В основном визуальные трансформеры сначала делят входные изображения на несколько локальных участков, а затем вычисляют как представления, так и их взаимосвязь. Поскольку естественные изображения имеют высокую сложность с обилием деталей и цветовой информации, детализации разделения участков недостаточно для извлечения признаков объектов в разных масштабах и местоположениях.

В этой статье мы отмечаем, что внимание внутри этих локальных участков также важно для создания визуальных трансформеров с высокой производительностью, и исследуем новую архитектуру, а именно Трансформер в Трансформере (TNT).

Конкретно мы рассматриваем локальные участки (например, 16×16) как «визуальные предложения» и представляем дальнейшее разделение их на более мелкие участки (например, 4×4) как «визуальные слова». Внимание каждого слова будет рассчитываться с другими словами в данном визуальном предложении с незначительными вычислительными затратами. Признаки как слов, так и предложений будут агрегированы для повышения способности представления.

Эксперименты на нескольких бенчмарках демонстрируют эффективность предложенной архитектуры TNT, например, мы достигаем точности топ-1 81,5% на ImageNet, что примерно на 1,7% выше, чем у современного визуального трансформера с аналогичными вычислительными затратами. Код PyTorch доступен по этому URL-адресу, а код MindSpore доступен по другому URL-адресу.

MixNet_L

Depthwise свёртка становится всё более популярной в современных эффективных ConvNets, но её размер ядра часто упускается из виду. В этой статье мы систематически изучаем влияние различных размеров ядер и наблюдаем, что объединение преимуществ нескольких размеров ядер может привести к повышению точности и эффективности.

Основываясь на этом наблюдении, мы предлагаем новую смешанную глубинную свёртку (MixConv), которая естественным образом объединяет несколько размеров ядра в одной свёртке. Как простая замена обычной глубинной свёртки, наша MixConv повышает точность и эффективность существующих MobileNets как для классификации ImageNet, так и для обнаружения объектов COCO.

Чтобы продемонстрировать эффективность MixConv, мы интегрируем его в пространство поиска AutoML и разрабатываем новое семейство моделей под названием MixNets, которые превосходят предыдущие мобильные модели, включая MobileNetV2 [20] (точность топ-1 ImageNet +4,2%), ShuffleNetV2 [16] (+3,5%), MnasNet [26] (+1,3%), ProxylessNAS [2] (+2,2%) и FBNet [27] (+2,0%). В частности, наш MixNet-L достигает новой рекордной точности топ-1 в 78,9% на ImageNet в типичных мобильных настройках (<600M FLOPS). Код доступен по этому URL. Простая замена обычной свёрточной сети на MixConv позволяет повысить точность и эффективность существующих MobileNets как для классификации ImageNet, так и для обнаружения объектов COCO.

Чтобы продемонстрировать эффективность MixConv, мы интегрируем его в пространство поиска AutoML и разрабатываем новое семейство моделей под названием MixNets, которые превосходят предыдущие мобильные модели, включая MobileNetV2 [20] (точность ImageNet top-1 +4,2%), ShuffleNetV2 [16] (+3,5%), MnasNet [26] (+1,3%), ProxylessNAS [2] (+2,2%) и FBNet [27] (+2,0%). В частности, наша модель MixNet-L достигает нового уровня точности 78,9% ImageNet top-1 в типичных мобильных настройках (<600M FLOPS). Код доступен по ссылке: https://tensorflow/tpu/tree/master/models/official/mnasnet/mixnet.

Пока модели классификации изображений продолжают развиваться, большинство последующих приложений, таких как обнаружение объектов и семантическая сегментация, по-прежнему используют варианты ResNet в качестве базовой сети из-за их простой и модульной структуры.

Мы представляем модульный блок Split-Attention, который обеспечивает внимание между группами карт признаков. Объединив эти блоки Split-Attention в стиле ResNet, мы получаем новый вариант ResNet, который называем ResNeSt. Наша сеть сохраняет общую структуру ResNet для непосредственного использования в последующих задачах без дополнительных вычислительных затрат. Модели ResNeSt превосходят другие сети с аналогичной сложностью модели. Например, ResNeSt-50 достигает точности 81,13% top-1 на ImageNet при использовании одного размера обрезки 224 × 224, что превышает предыдущий лучший вариант ResNet более чем на 1% точности. Это улучшение также помогает последующим задачам, включая обнаружение объектов, индивидуальную сегментацию и семантическую сегментацию. Инверсия наследуемости свёрточной нейронной сети для визуального распознавания

Свёрточная нейронная сеть стала основным компонентом современных нейросетей, вызвав всплеск глубокого обучения в области зрения. В этой работе мы переосмысливаем основополагающие принципы стандартной свёртки для задач зрения, особенно пространственно-независимой и канально-зависимой. Вместо этого мы представляем новую атомарную операцию для глубоких нейронных сетей, называемую инволюцией. Мы также демистифицируем популярный оператор самовнимания и включаем его в нашу семью инволюций как усложнённую реализацию.

Предложенный оператор инволюции может быть использован в качестве фундаментальных блоков для создания нового поколения нейронных сетей для визуального распознавания, питая различные модели глубокого обучения на нескольких популярных бенчмарках, включая классификацию ImageNet, обнаружение и сегментацию COCO, а также сегментацию Cityscapes. Наши модели, основанные на инволюциях, улучшают производительность свёрточных базовых моделей с использованием ResNet-50 до 1,6% точности top-1, 2,5% и 2,4% AP ограничивающего прямоугольника и 4,7% среднего IoU абсолютно, при этом снижая вычислительные затраты до 66%, 65%, 72% и 57% на вышеупомянутых бенчмарках соответственно. Код и предварительно обученные модели для всех задач доступны по этому URL.

LeViT: Vision Transformer в одежде ConvNet для более быстрого вывода

Мы разрабатываем семейство архитектур классификации изображений, которые оптимизируют соотношение между точностью и эффективностью в режиме высокой скорости. Наша работа опирается на недавние открытия в архитектурах, основанных на внимании, которые конкурентоспособны на оборудовании с высокопараллельной обработкой. Мы пересматриваем принципы обширной литературы по свёрточным нейронным сетям, чтобы применить их к трансформаторам, в частности, карты активации с уменьшающимися разрешениями. Мы также вводим смещение внимания, новый способ интеграции позиционной информации в трансформаторы зрения.

В результате мы предлагаем LeVIT: гибридную нейронную сеть для быстрой классификации изображений. Мы рассматриваем различные меры эффективности на разных аппаратных платформах, чтобы наилучшим образом отразить широкий спектр сценариев применения. Наши обширные эксперименты эмпирически подтверждают наши технические решения и показывают, что они подходят для большинства архитектур. В целом, LeViT значительно превосходит существующие свёрточные сети и трансформаторы зрения с точки зрения соотношения скорости и точности. Например, при 80% точности ImageNet top-1 LeVit в 5 раз быстрее, чем EfficientNet на CPU. Мы выпускаем код по этому URL. Мы разрабатываем семейство архитектур для классификации изображений, которые оптимизируют соотношение между точностью и эффективностью в режиме высокой скорости. Наша работа основана на последних достижениях в области архитектур, основанных на внимании, которые являются конкурентоспособными на оборудовании с высокопараллельной обработкой.

Мы пересматриваем принципы обширной литературы по свёрточным нейронным сетям, чтобы применить их к трансформаторам, в частности, карты активации с уменьшающимися разрешениями. Мы также представляем смещение внимания — новый способ интеграции позиционной информации в трансформаторы для работы с изображениями. В результате мы предлагаем LeViT — гибридную нейронную сеть для быстрой классификации изображений.

Мы рассматриваем различные показатели эффективности на разных аппаратных платформах, чтобы наилучшим образом отразить широкий спектр сценариев применения. Наши обширные эксперименты эмпирически подтверждают наш технический выбор и показывают, что они подходят для большинства архитектур. В целом, LeViT значительно превосходит существующие свёрточные нейронные сети и трансформаторы для обработки изображений с точки зрения соотношения скорости и точности. Например, при точности 80% ImageNet top-1 LeViT в 5 раз быстрее EfficientNet на CPU. Мы публикуем код по этому URL-адресу. Twins: Revisiting the Design of Spatial Attention in Vision Transformers

Совсем недавно было предложено множество архитектур трансформаторов для задач плотного прогнозирования, и они показывают, что дизайн пространственного внимания имеет решающее значение для их успеха в этих задачах. В этой работе мы пересматриваем дизайн пространственного внимания и демонстрируем, что тщательно разработанный, но простой механизм пространственного внимания выгодно отличается от современных схем.

В результате мы предлагаем две архитектуры трансформаторов зрения, а именно Twins-PCPVT и Twins-SVT. Наши предложенные архитектуры являются высокоэффективными и простыми в реализации, включая только матричные умножения, которые хорошо оптимизированы в современных фреймворках глубокого обучения. Более того, предложенные архитектуры достигают отличных результатов в широком спектре визуальных задач, включая классификацию на уровне изображений, а также плотное обнаружение и сегментацию. Простота и высокая производительность позволяют предположить, что наши предложенные архитектуры могут служить более сильными базовыми моделями для многих задач зрения. Наш код доступен по этому URL.

157. pcpvt_base

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

Очень недавно было предложено множество архитектур трансформаторов для задач плотного прогнозирования, и они показывают, что дизайн пространственного внимания является критическим для их успеха в этих задачах. В этой работе мы пересматриваем дизайн пространственного внимания и демонстрируем, что тщательно разработанный, но простой механизм пространственного внимания выгодно отличается от современных схем.

В результате мы предлагаем две архитектуры трансформаторов зрения, а именно Twins-PCPVT и Twins-SVT. Наши предложенные архитектуры являются высокоэффективными и простыми в реализации, включающими только матричные умножения, которые оптимизированы в современных фреймворках глубокого обучения. Кроме того, предложенные архитектуры демонстрируют отличные результаты в широком спектре визуальных задач, таких как классификация на уровне изображений, плотное обнаружение и сегментация. Простота и высокая эффективность позволяют предположить, что предложенные нами архитектуры могут стать более мощными базовыми моделями для множества задач зрения. Код доступен по этому URL.

158. pcpvt_small

Twins: Revisiting the Design of Spatial Attention in Vision Transformers PP-PicoDet: лучший детектор объектов в реальном времени для мобильных устройств

Проблема достижения оптимального баланса между точностью и эффективностью является сложной задачей в области обнаружения объектов. В этой работе мы изучаем ключевые оптимизации и архитектурные решения нейронных сетей для обнаружения объектов с целью улучшения точности и эффективности. Мы исследуем применимость стратегии без использования якорей для лёгких моделей обнаружения объектов.

Мы улучшаем структуру основы и разрабатываем лёгкую структуру шеи, что повышает способность сети к извлечению признаков. Мы также совершенствуем стратегию назначения меток и функцию потерь, чтобы сделать обучение более стабильным и эффективным. Благодаря этим оптимизациям мы создаём новое семейство детекторов объектов реального времени под названием PP-PicoDet, которое обеспечивает превосходную производительность при обнаружении объектов на мобильных устройствах. Наши модели достигают лучших компромиссов между точностью и задержкой по сравнению с другими популярными моделями.

PicoDet-S с всего лишь 0,99 миллиона параметров достигает 30,6% mAP, что представляет собой абсолютное улучшение на 4,8% в mAP при одновременном снижении задержки вывода на мобильном CPU на 55% по сравнению с YOLOX-Nano и абсолютное улучшение на 7,1% в mAP по сравнению с NanoDet. Он достигает 123 FPS (150 FPS с использованием Paddle Lite) на мобильном ARM CPU при размере входных данных 320. PicoDet-L с всего лишь 3,3 миллионами параметров достигает 40,9% mAP, что является абсолютным улучшением на 3,7% в mAP и на 44% быстрее, чем YOLOv5s. Как показано на рисунке 1, наши модели значительно превосходят современные результаты для лёгкого обнаружения объектов. Код и предварительно обученные модели доступны на PaddleDetection1.1. Быстрое начало

0.7362

Быстрое начало

165

HarDNet85

Быстрое начало

Быстрое начало

HarDNet: сеть с низким трафиком памяти

Современные архитектуры нейронных сетей, такие как ResNet, MobileNet и DenseNet, достигли выдающихся показателей точности при низком количестве умножений и сложений (MAC) и небольшом размере модели. Однако эти метрики могут быть неточными для прогнозирования времени вывода. Мы предполагаем, что трафик памяти для доступа к промежуточным картам признаков может быть фактором, доминирующим в задержке вывода, особенно в таких задачах, как обнаружение объектов в реальном времени и семантическая сегментация видео высокого разрешения.

Мы предлагаем гармоническую плотно связанную сеть для достижения высокой эффективности с точки зрения низкого MAC и трафика памяти. Новая сеть обеспечивает сокращение времени вывода на 35%, 36%, 30%, 32% и 45% по сравнению с FC-DenseNet-103, DenseNet-264, ResNet-50, ResNet-152 и SSD-VGG соответственно.

Мы используем инструменты, включая Nvidia profiler и ARM Scale-Sim, для измерения трафика памяти и проверки того, что задержка вывода действительно пропорциональна потреблению трафика памяти, и предлагаемая сеть потребляет низкий трафик памяти. Мы приходим к выводу, что при разработке архитектур нейронных сетей для приложений с высоким разрешением на периферии следует учитывать трафик памяти.

ImageNet/Acc 0.7744

Быстрое начало

166

HarDNet68

Быстрое начало

Быстрое начало

HarDNet: сеть с низким трафиком памяти

Современные архитектуры нейронных сетей, такие как ResNet, MobileNet и DenseNet, достигли выдающихся показателей точности при низком количестве умножений и сложений (MAC) и небольшом размере модели. Однако эти метрики могут быть неточными для прогнозирования времени вывода. Мы предполагаем, что трафик памяти для доступа к промежуточным картам признаков может быть фактором, доминирующим в задержке вывода, особенно в таких задачах, как обнаружение объектов в реальном времени и семантическая сегментация видео высокого разрешения.

Мы предлагаем гармоническую плотно связанную сеть для достижения высокой эффективности с точки зрения низкого MAC и трафика памяти. Новая сеть обеспечивает сокращение времени вывода на 35%, 36%, 30%, 32% и 45% по сравнению с FC-DenseNet-103, DenseNet-264, ResNet-50, ResNet-152 и SSD-VGG соответственно.

Мы используем инструменты, включая Nvidia profiler и ARM Scale-Sim, для измерения трафика памяти и проверки того, что задержка вывода действительно пропорциональна потреблению трафика памяти, и предлагаемая сеть потребляет низкий трафик памяти. Мы приходим к выводу, что при разработке архитектур нейронных сетей для приложений с высоким разрешением на периферии следует учитывать трафик памяти.

ImageNet/Acc 0.7546

Быстрое начало

167

HarDNet39_ds

Быстрое начало

Быстрое начало

HarDNet: сеть с низким трафиком памяти

Современные архитектуры нейронных сетей, такие как ResNet, MobileNet и DenseNet, достигли выдающихся показателей точности при низком количестве умножений и сложений (MAC) и небольшом размере модели. Однако эти метрики могут быть неточными для прогнозирования времени вывода. Мы предполагаем, что трафик памяти для доступа к промежуточным картам признаков может быть фактором, доминирующим в задержке вывода, особенно в таких задачах, как обнаружение объектов в реальном времени и семантическая сегментация видео высокого разрешения.

Мы предлагаем гармоническую плотно связанную сеть для достижения высокой эффективности с точки зрения низкого MAC и трафика памяти. FC-DenseNet-103, DenseNet-264, ResNet-50, ResNet-152 и SSD-VGG соответственно. Мы используем инструменты, включая Nvidia profiler и ARM Scale-Sim для измерения трафика памяти и проверки того, что задержка вывода действительно пропорциональна потреблению трафика памяти, и предложенная сеть потребляет низкий трафик памяти. Мы приходим к выводу, что при разработке архитектур нейронных сетей для приложений с высоким разрешением на периферии следует учитывать трафик памяти.

ImageNet/Acc 0.7133

快速开始

168

ViT_base_patch16_224

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition benchmarks (ImageNet, CIFAR-100, VTAB, etc.), Vision Transformer (ViT) attains excellent results compared to state-of-the-art convolutional networks while requiring substantially fewer computational resources to train.

ImageNet/Acc 0.8195

快速开始

169

ViT_base_patch16_384

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition benchmarks (ImageNet, CIFAR-100, VTAB, etc.), Vision Transformer (ViT) attains excellent results compared to state-of-the-art convolutional networks while requiring substantially fewer computational resources to train.

ImageNet/Acc 0.8414

快速开始

170

ViT_base_patch32_384

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition... Трансформер для обработки изображений (ViT) показывает превосходные результаты по сравнению с современными свёрточными сетями, при этом требуя значительно меньше вычислительных ресурсов для обучения.

ImageNet/Acc 0,8176

Быстрый старт

171 ViT_huge_patch16_224

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Хотя архитектура трансформера стала стандартом де-факто для задач обработки естественного языка, его применение в компьютерном зрении остаётся ограниченным. В области зрения внимание либо применяется совместно со свёрточными сетями, либо используется для замены определённых компонентов свёрточных сетей при сохранении их общей структуры. Мы показываем, что эта зависимость от CNN не является необходимой, и чистый трансформер, применяемый непосредственно к последовательностям патчей изображения, может очень хорошо работать в задачах классификации изображений. При предварительном обучении на больших объёмах данных и переносе на несколько бенчмарков распознавания изображений среднего или малого размера (ImageNet, CIFAR-100, VTAB и т. д.) трансформер для обработки изображений (ViT) достигает отличных результатов по сравнению с передовыми свёрточными сетями, требуя при этом значительно меньше вычислительных ресурсов для обучения.

—

Быстрый старт

172 ViT_huge_patch32_384

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Хотя архитектура трансформера стала стандартом де-факто для задач обработки естественного языка, его применение в компьютерном зрении остаётся ограниченным. В области зрения внимание либо применяется совместно со свёрточными сетями, либо используется для замены определённых компонентов свёрточных сетей при сохранении их общей структуры. Мы показываем, что эта зависимость от CNN не является необходимой, и чистый трансформер, применяемый непосредственно к последовательностям патчей изображения, может очень хорошо работать в задачах классификации изображений. При предварительном обучении на больших объёмах данных и переносе на несколько бенчмарков распознавания изображений среднего или малого размера (ImageNet, CIFAR-100, VTAB и т. д.) трансформер для обработки изображений (ViT) достигает отличных результатов по сравнению с передовыми свёрточными сетями, требуя при этом значительно меньше вычислительных ресурсов для обучения.

—

173 ViT_large_patch16_224

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Хотя архитектура трансформера стала стандартом де-факто для задач обработки естественного языка, его применение в компьютерном зрении остаётся ограниченным. В области зрения внимание либо применяется совместно со свёрточными сетями, либо используется для замены определённых компонентов свёрточных сетей при сохранении их общей структуры. Мы показываем, что эта зависимость от CNN не является необходимой, и чистый трансформер, применяемый непосредственно к последовательностям патчей изображения, может очень хорошо работать в задачах классификации изображений. При предварительном обучении на больших объёмах данных и переносе на несколько бенчмарков распознавания изображений среднего или малого размера (ImageNet, CIFAR-100, VTAB и т. д.) трансформер для обработки изображений (ViT) достигает отличных результатов по сравнению с передовыми свёрточными сетями, требуя при этом значительно меньше вычислительных ресурсов для обучения.

ImageNet/Acc 0,8323

Быстрый старт Внимание

Недавно было показано, что нейронные сети, основанные исключительно на внимании, способны решать задачи понимания изображений, такие как классификация изображений. Однако эти визуальные преобразователи предварительно обучаются на сотнях миллионов изображений с использованием дорогостоящей инфраструктуры, что ограничивает их применение.

В этой работе мы создаём конкурентоспособный преобразователь без свёрточных слоёв, обучая его только на Imagenet. Мы обучаем их на одном компьютере менее чем за 3 дня. Наш эталонный визуальный преобразователь (86M параметров) достигает точности top-1 83,1% (оценка с одним кадром) на ImageNet без внешних данных.

Что ещё более важно, мы представляем стратегию «учитель-ученик», специфичную для преобразователей. Она основана на токене дистилляции, который гарантирует, что ученик учится у учителя через внимание. Мы показываем интерес к этой дистилляции на основе токенов, особенно при использовании свёрточной нейронной сети в качестве учителя. Это позволяет нам сообщить о результатах, сопоставимых с результатами свёрточных сетей как для Imagenet (где мы достигаем точности до 85,2%), так и при переносе на другие задачи. Мы делимся нашим кодом и моделями.

ImageNet/Acc 0,83

Быстрое начало

178 DeiT_base_patch16_384

Обучение эффективных преобразователей изображений и дистилляция через внимание

179 DeiT_small_patch16_224

Обучение эффективных преобразователей изображений и дистилляция через внимание 180. DeiT_tiny_patch16_224

Недавно было показано, что нейронные сети, основанные исключительно на внимании, могут решать задачи понимания изображений, такие как классификация изображений. Однако эти визуальные преобразователи предварительно обучаются на сотнях миллионов изображений с использованием дорогостоящей инфраструктуры, что ограничивает их применение.

В этой работе мы создаём конкурентоспособный преобразователь без свёрток, обучаясь только на Imagenet. Мы обучаем их на одном компьютере менее чем за 3 дня. Наш эталонный визуальный преобразователь (86M параметров) достигает точности top-1 83,1% (оценка одного среза) на ImageNet без внешних данных.

Что ещё более важно, мы представляем стратегию «учитель-ученик», специфичную для преобразователей. Она опирается на токен дистилляции, гарантирующий, что ученик учится у учителя через внимание. Мы показываем интерес к этой дистилляции на основе токенов, особенно при использовании свёрточной нейронной сети в качестве учителя. Это приводит нас к результатам, сопоставимым с свёрточными сетями как для Imagenet (где мы достигаем точности до 85,2%), так и при переносе на другие задачи. Мы делимся нашим кодом и моделями.

ImageNet/Acc 0,718.

181. SwinTransformer_base_patch4_window12_384

Эта статья представляет новый визуальный преобразователь под названием Swin Transformer, который эффективно служит универсальным базовым компонентом для компьютерного зрения. Проблемы адаптации преобразователя из языка в зрение возникают из-за различий между этими двумя областями, таких как большие вариации масштаба визуальных объектов и высокое разрешение пикселей в изображениях по сравнению со словами в тексте.

Чтобы решить эти проблемы, мы предлагаем иерархический преобразователь, чьё представление вычисляется с помощью смещённых окон. Схема смещённого окна обеспечивает большую эффективность, ограничивая вычисления самовнимания неперекрывающимися локальными окнами, а также позволяя межвидовое соединение. Эта иерархическая архитектура обладает гибкостью для моделирования в различных масштабах и имеет линейную вычислительную сложность относительно размера изображения. Эти качества Swin Transformer делают его совместимым с широким спектром задач зрения, включая классификацию изображений (точность top-1 87,3% на ImageNet-1K) и задачи плотного прогнозирования, такие как обнаружение объектов (AP коробки 58,7 и AP маски 51,1 на COCO test-dev) и семантическая сегментация (mIoU 53,5 на ADE20K val). Его производительность значительно превосходит предыдущий уровень техники на +2,7 AP коробки и +2,6 AP маски на COCO и +3,2 mIoU на ADE20K, демонстрируя потенциал моделей на основе преобразователей в качестве базовых компонентов зрения. Иерархический дизайн и подход со смещёнными окнами также оказываются полезными для всех архитектур MLP. Код и модели доступны публично по адресу https URL.

ImageNet/Acc 0,8439.

182. SwinTransformer_base_patch4_window7_224

Этот документ представляет новый визуальный преобразователь под названием Swin Transformer, который эффективно служит универсальным базовым компонентом для компьютерного зрения. Проблемы адаптации преобразователя из языка в зрение возникают из-за различий между этими двумя областями, такими как большие вариации масштаба визуальных сущностей и высокое разрешение пикселей в изображении по сравнению со словами в тексте.

Для решения этих проблем мы предлагаем иерархический преобразователь, чьё представление вычисляется с помощью смещённых окон. Схемы смещённого окна обеспечивают большую эффективность, ограничивая вычисления самовнимания неперекрывающимися локальными окнами, а также позволяя межвидовые соединения. Сравнивая изображения и слова в тексте: новый подход Swin Transformer

Проблемы адаптации Трансформера из области обработки естественного языка к компьютерному зрению связаны с различиями между этими областями, такими как значительные вариации масштаба визуальных объектов и высокое разрешение пикселей в изображениях по сравнению со словами в тексте. Чтобы решить эти проблемы, мы предлагаем иерархический Трансформер, представление которого вычисляется с помощью смещённых окон. Схема смещённого окна обеспечивает большую эффективность за счёт ограничения вычисления самовнимания неперекрывающимися локальными окнами, а также позволяет устанавливать связи между окнами. Эта иерархическая архитектура обладает гибкостью для моделирования на разных масштабах и имеет линейную вычислительную сложность относительно размера изображения. Эти качества Swin Transformer делают его совместимым с широким спектром задач компьютерного зрения, включая классификацию изображений (точность 87,3% top-1 на ImageNet-1K) и задачи плотного прогнозирования, такие как обнаружение объектов (58,7 box AP и 51,1 mask AP на COCO test-dev) и семантическая сегментация (53,5 mIoU на ADE20K val). Его производительность значительно превосходит предыдущий уровень техники: +2,7 box AP и +2,6 mask AP на COCO, +3,2 mIoU на ADE20K, что демонстрирует потенциал моделей на основе Трансформера в качестве основы для компьютерного зрения. Иерархический дизайн и подход со смещёнными окнами также полезны для всех архитектур MLP. Код и модели доступны публично по адресу~\url{this https URL}.

Примечание: перевод выполнен автоматически, возможны неточности. С перемещёнными окнами. Схема перемещённого оконного подхода обеспечивает большую эффективность, ограничивая вычисления самовнимания неперекрывающимися локальными окнами, при этом также позволяя устанавливать связи между окнами. Эта иерархическая архитектура обладает гибкостью для моделирования в различных масштабах и имеет линейную вычислительную сложность относительно размера изображения. Эти качества Swin Transformer делают его совместимым с широким спектром задач компьютерного зрения, включая классификацию изображений (точность top-1 87,3% на ImageNet-1K) и задачи плотного прогнозирования, такие как обнаружение объектов (AP bounding box 58,7%, AP маски 51,1% на COCO test-dev) и семантическая сегментация (mIoU 53,5% на ADE20K val). Его производительность значительно превосходит предыдущий уровень техники: +2,7 AP bounding box и +2,6 AP маски на COCO, а также +3,2 mIoU на ADE20K, демонстрируя потенциал моделей на основе Transformer в качестве основы для компьютерного зрения. Иерархический дизайн и подход с перемещёнными окнами также оказываются полезными для всех архитектур MLP. Код и модели доступны публично по адресу~\url{this https URL}.

ImageNet/Acc 0,8596 | Быстрый старт |---|---|---|---| 185 | SwinTransformer_small_patch4_window7_224 | «Swin Transformer: Hierarchical Vision Transformer using Shifted Windows» | |---|---|---|---| | 186 | SwinTransformer_tiny_patch4_window7_224 | «Swin Transformer: Hierarchical Vision Transformer using Shifted Windows» | CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

Мы представляем CSWin Transformer, эффективный и действенный Трансформер-бэкбон для задач общего назначения в области компьютерного зрения.

Сложной проблемой при разработке Трансформеров является то, что глобальное самовнимание очень дорого в вычислительном отношении, в то время как локальное самовнимание часто ограничивает область взаимодействия каждого токена. Чтобы решить эту проблему, мы разрабатываем механизм самовнимания в форме перекрёстных окон для параллельного вычисления самовнимания на горизонтальных и вертикальных полосах, которые образуют перекрёстное окно, причём каждая полоса получается путём разделения входных признаков на полосы одинаковой ширины. Мы предоставляем математический анализ влияния ширины полос и варьируем ширину полос для разных слоёв сети Трансформера, что обеспечивает мощные возможности моделирования при ограничении стоимости вычислений.

Также мы представляем улучшенное позиционное кодирование (LePE), которое лучше обрабатывает локальную позиционную информацию по сравнению с существующими схемами кодирования. LePE естественным образом поддерживает произвольные входные разрешения и особенно эффективен и удобен для последующих задач. В сочетании с этими конструкциями и иерархической структурой CSWin Transformer демонстрирует конкурентную производительность в общих задачах компьютерного зрения. В частности, он достигает точности 85,4% Top-1 на ImageNet-1K без каких-либо дополнительных обучающих данных или меток, 53,9 box AP и 46,4 mask AP в задаче обнаружения COCO и 52,2 mIOU в семантической сегментации ADE20K, превосходя предыдущий уровень техники Swin Transformer на +1,2, +2,0, +1,4 и +2,0 соответственно при аналогичных FLOPs.

После дополнительного обучения на более крупном наборе данных ImageNet-21K мы достигаем точности 87,5% Top-1 на ImageNet-1K и высокой производительности сегментации на ADE20K с 55,7 mIoU. Мы представляем CSWin Transformer, эффективный и действенный базис на основе архитектуры Transformer для задач общего назначения в области компьютерного зрения.

Сложной проблемой при разработке архитектуры Transformer является то, что глобальное самовнимание очень затратно в вычислительном отношении, тогда как локальное самовнимание часто ограничивает область взаимодействия каждого токена. Чтобы решить эту проблему, мы разработали механизм самовнимания в форме перекрёстного окна (Cross-Shaped Window) для параллельного вычисления самовнимания по горизонтальным и вертикальным полосам, образующим перекрёстное окно, причём каждая полоса получается путём разделения входного признака на полосы равной ширины. Мы предоставляем математический анализ влияния ширины полос и варьируем ширину полос для разных слоёв сети Transformer, что обеспечивает мощные возможности моделирования при ограничении стоимости вычислений.

Мы также представляем улучшенное позиционное кодирование с локальным усилением (Locally-enhanced Positional Encoding, LePE), которое лучше обрабатывает локальную позиционную информацию по сравнению с существующими схемами кодирования. LePE естественным образом поддерживает произвольные разрешения ввода и, следовательно, особенно эффективен и удобен для последующих задач. Благодаря этим разработкам и иерархической структуре CSWin Transformer демонстрирует конкурентоспособные результаты в общих задачах компьютерного зрения. В частности, он достигает точности 85,4% Top-1 на ImageNet-1K без каких-либо дополнительных обучающих данных или меток, 53,9 box AP и 46,4 mask AP в задаче обнаружения COCO и 52,2 mIOU в задаче семантической сегментации ADE20K, превосходя предыдущую передовую архитектуру Swin Transformer на +1,2, +2,0, +1,4 и +2,0 соответственно при аналогичных настройках FLOPs.

После дополнительного обучения на более крупном наборе данных ImageNet-21K мы достигаем точности 87,5% Top-1 на ImageNet-1K и высокой производительности сегментации на ADE20K с 55,7 mIoU. Механизм вычисления самовнимания в горизонтальных и вертикальных полосах, которые образуют крестообразное окно, при этом каждая полоса получается путём разделения входного признака на полосы равной ширины.

Мы предоставляем математический анализ влияния ширины полос и варьируем ширину полос для разных слоёв сети Transformer, что обеспечивает высокую способность моделирования при ограниченных вычислительных затратах. Мы также представляем улучшенное локальное позиционное кодирование (LePE), которое лучше обрабатывает локальную позиционную информацию по сравнению с существующими схемами кодирования. LePE естественным образом поддерживает произвольные входные разрешения и особенно эффективен и удобен для последующих задач. В сочетании с этими конструкциями и иерархической структурой CSWin Transformer демонстрирует конкурентоспособные результаты в общих задачах компьютерного зрения. В частности, он достигает точности 85,4% Top-1 на ImageNet-1K без каких-либо дополнительных обучающих данных или меток, 53,9 box AP и 46,4 mask AP в задаче обнаружения COCO и 52,2 mIOU в задаче семантической сегментации ADE20K, превосходя предыдущий state-of-the-art Swin Transformer на +1,2, +2,0, +1,4 и +2,0 соответственно при аналогичных настройках FLOPs. После дополнительного обучения на более крупном наборе данных ImageNet-21K мы достигаем точности 87,5% Top-1 на ImageNet-1K и высокой производительности сегментации на ADE20K с 55,7 mIoU. Абстракт

Transformer недавно продемонстрировал многообещающий прогресс в области компьютерного зрения. В этой работе мы представляем новые базовые показатели, улучшая оригинальный Pyramid Vision.

199 PVT_V2_B5

PVTv2: Улучшенные базовые показатели с Pyramid Vision Transformer.

Абстракт

Transformer недавно представил многообещающие результаты в компьютерном зрении. В данной работе мы предлагаем новые базовые показатели на основе улучшенной версии Pyramid Vision.

200 MobileViT_XXS

MOBILEVIT: Лёгкий, универсальный и удобный для мобильных устройств Vision Transformer.

Light-weight свёрточные нейронные сети (CNN) фактически являются стандартом для задач мобильного зрения. Их пространственные индуктивные предубеждения позволяют им изучать представления с меньшим количеством параметров для различных задач зрения. Однако эти сети являются пространственно локальными. Чтобы изучить глобальные представления, были приняты основанные на самовнимании (self-attention) трансформаторы зрения (Vision Transformers, ViTs). В отличие от CNN, ViT имеют большой вес. В этой статье мы задаём следующий вопрос: возможно ли объединить сильные стороны CNN и ViT для создания лёгкой и быстрой сети для задач мобильного видения? С этой целью мы представляем MobileViT — лёгкий и универсальный трансформатор зрения для мобильных устройств. MobileViT представляет собой другой взгляд на глобальную обработку информации с помощью трансформаторов. Наши результаты показывают, что MobileViT значительно превосходит сети на основе CNN и ViT в различных задачах и наборах данных. На наборе данных ImageNet-1k MobileViT достигает точности top-1 78,4% с примерно 6 миллионами параметров, что на 3,2% и 6,2% точнее, чем MobileNetv3 (на основе CNN) и DeIT (на основе ViT) при аналогичном количестве параметров. В задаче обнаружения объектов MS-COCO MobileViT на 5,7% точнее, чем MobileNetv3 при аналогичном числе параметров. Наш исходный код является открытым и доступен по ссылке: https://github.com/apple/ml-cvnets.

201 MobileViT_XS

MobileViT: лёгкий, универсальный и удобный для мобильных устройств Vision Transformer.

Light-weight свёрточные нейронные сети (CNN) фактически являются стандартом для задач мобильного зрения. Их пространственные предубеждения позволяют им учиться представлениям с меньшим числом параметров для разных задач зрения. Однако эти сети являются пространственно локальными. Чтобы изучать глобальные представления, были приняты основанные на самовнимании (self-attention) трансформаторы зрения (ViTs). В отличие от CNN, они имеют большой вес.

В этой статье мы спрашиваем: можно ли объединить сильные стороны CNN и ViT, чтобы создать лёгкую и быструю сеть для задач мобильного зрения? Для этого мы представляем MobileViT — лёгкий и универсальный Vision Transformer для мобильных устройств. Он представляет другой взгляд на глобальную обработку информации с помощью трансформаторов. Результаты показывают, что MobileViT превосходит сети на базе CNN и ViT по разным задачам и наборам данных. На ImageNet-1k он достигает точности top-1 в 78,4%, имея около 6 миллионов параметров, что на 3,2% и 6,2% лучше, чем у MobileNetv3 (базируется на CNN) и DeIT (основан на ViT), при аналогичном числе параметров. В MS-COCO для обнаружения объектов MobileViT на 5,7% точнее MobileNetv3 с таким же числом параметров. Исходный код открыт и доступен на GitHub: https://github.com/apple/ml-cvnets. PPyolo_tiny_650e_coco

ПП-ЙОЛО: эффективная и действенная реализация детектора объектов.

Детектор объектов — одна из важнейших областей компьютерного зрения, которая играет ключевую роль в различных практических сценариях. Из-за ограничений аппаратного обеспечения часто приходится жертвовать точностью, чтобы обеспечить скорость вывода детектора на практике. Поэтому необходимо учитывать баланс между эффективностью и результативностью детектора объектов. Цель этой статьи — реализовать детектор объектов со сбалансированной эффективностью и результативностью, который можно непосредственно применять в реальных сценариях, а не предлагать новую модель обнаружения. Учитывая, что YOLOv3 широко используется на практике, мы разрабатываем новый детектор объектов на основе YOLOv3. Мы в основном пытаемся объединить различные существующие приёмы, которые почти не увеличивают количество параметров модели и FLOPs, чтобы достичь цели максимально повысить точность детектора при сохранении скорости почти без изменений. Поскольку все эксперименты в этой статье проводятся на базе PaddlePaddle, мы называем его PP-YOLO.

Источник: PaddleDetection.

ppyolo_tiny_650e_coco — это модель детектора объектов, разработанная на основе архитектуры YOLOv3 с использованием библиотеки машинного обучения PaddlePaddle. Модель оптимизирована для достижения баланса между точностью и скоростью работы, что делает её подходящей для использования в реальных приложениях. PP-YOLO

Благодаря сочетанию нескольких приёмов PP-YOLO может достичь лучшего баланса между эффективностью (45,2% mAP) и производительностью (72,9 FPS), превосходя существующие современные детекторы, такие как EfficientDet и YOLOv4. Исходный код доступен по этому URL-адресу https.

COCO/mAP 20,6

Быстрое начало

2. Picodet_s_320_coco

PP-PicoDet: лучший детектор объектов в реальном времени для мобильных устройств

Улучшение точности и эффективности — сложная задача в обнаружении объектов. В этой работе мы изучаем ключевые оптимизации и варианты архитектуры нейронных сетей для обнаружения объектов с целью повышения точности и эффективности. Мы исследуем применимость стратегии без привязки к лёгким моделям обнаружения объектов. Мы улучшаем структуру магистрали и разрабатываем облегчённую структуру шеи, что улучшает способность сети извлекать признаки. Мы совершенствуем стратегию назначения меток и функцию потерь, чтобы сделать обучение более стабильным и эффективным. Благодаря этим оптимизациям мы создаём новое семейство детекторов объектов реального времени под названием PP-PicoDet, которое обеспечивает превосходную производительность при обнаружении объектов на мобильных устройствах. Наши модели обеспечивают лучший баланс между точностью и задержкой по сравнению с другими популярными моделями. PicoDet-S с всего лишь 0,99 млн параметров достигает 30,6% mAP, что является абсолютным улучшением на 4,8% в mAP при снижении задержки вывода мобильного процессора на 55% по сравнению с YOLOX-Nano и абсолютным улучшением на 7,1% в mAP по сравнению с NanoDet. Он достигает 123 FPS (150 FPS с использованием Paddle Lite) на мобильном ARM CPU при размере входных данных 320. PicoDet-L с всего лишь 3,3 млн параметров достигает 40,9% mAP, что представляет собой абсолютное улучшение на 3,7% в mAP и на 44% быстрее, чем YOLOv5s. Как показано на рисунке 1, наши модели значительно превосходят современные результаты для лёгкого обнаружения объектов. Код и предварительно обученные модели доступны по этому URL.

COCO/mAP 27,1

Быстрое начало

3. Picodet_s_320_coco_lc.net

PP-PicoDet: лучший детектор объектов в реальном времени для мобильных устройств

Улучшение точности и эффективности — сложная задача в обнаружении объектов. В этой работе мы изучаем ключевые оптимизации и варианты архитектуры нейронных сетей для обнаружения объектов с целью повышения точности и эффективности. Мы исследуем применимость стратегии без привязки к лёгким моделям обнаружения объектов. Мы улучшаем структуру магистрали и разрабатываем облегчённую структуру шеи, что улучшает способность сети извлекать признаки. Мы совершенствуем стратегию назначения меток и функцию потерь, чтобы сделать обучение более стабильным и эффективным. Благодаря этим оптимизациям мы создаём новое семейство детекторов объектов реального времени под названием PP-PicoDet, которое обеспечивает превосходную производительность при обнаружении объектов на мобильных устройствах. Наши модели обеспечивают лучший баланс между точностью и задержкой по сравнению с другими популярными моделями. Превосходят современные результаты для лёгкого обнаружения объектов.

Код и предварительно обученные модели доступны по этому URL-адресу https.

COCO/mAP 40,9

Быстрый старт.

PicoDet_lcnet_1_5x_41_6_coco

PP-PicoDet: лучший детектор объектов в реальном времени на мобильных устройствах.

5

PpyoloE_crn_s_300e_co_co

PP-YOLOE: эволюционировавшая версия YOLO.

6

Ssdlite_mobilenet_v1_300_coco

SSD: однократный многообъектный детектор.

Мы представляем метод обнаружения объектов на изображениях с использованием одной глубокой нейронной сети. Наш подход, названный SSD, дискретизирует выходное пространство ограничивающих рамок в набор стандартных блоков с различными соотношениями сторон и масштабами для каждого местоположения карты признаков. Во время прогнозирования... Сеть генерирует оценки для присутствия каждой категории объектов в каждом поле по умолчанию и вносит корректировки в поле, чтобы лучше соответствовать форме объекта. Кроме того, сеть объединяет прогнозы с нескольких карт признаков с разным разрешением, что позволяет естественным образом обрабатывать объекты разных размеров.

Наша модель SSD проста по сравнению с методами, требующими предложений объектов, поскольку она полностью исключает генерацию предложений и последующий этап передискретизации пикселей или признаков и инкапсулирует все вычисления в одной сети. Это делает SSD простой в обучении и лёгкой для интеграции в системы, требующие компонента обнаружения. Экспериментальные результаты на наборах данных PASCAL VOC, MS COCO и ILSVRC подтверждают, что SSD имеет сопоставимую точность с методами, использующими дополнительный шаг предложения объектов, и работает намного быстрее, обеспечивая при этом унифицированную структуру как для обучения, так и для логического вывода. По сравнению с другими одноэтапными методами, SSD имеет гораздо лучшую точность даже при меньшем размере входного изображения. Для входного размера 300×300 SSD достигает 72,1% mAP на тесте VOC2007 со скоростью 58 FPS на Nvidia Titan X, а для входного размера 500×500 SSD достигает 75,1% mAP, превосходя сопоставимую современную модель Faster R-CNN. Код доступен по этому URL. Использование популярной в последнее время терминологии нейронных сетей с механизмами «внимания», компонент RPN сообщает единой сети, куда смотреть.

Для очень глубокой модели VGG-16 наша система обнаружения имеет частоту кадров 5 кадров в секунду (включая все этапы) на графическом процессоре, достигая при этом самой современной точности обнаружения объектов в наборах данных PASCAL VOC 2007, 2012 и MS COCO всего с 300 предложениями на изображение. В соревнованиях ILSVRC и COCO 2015 Faster R-CNN и RPN являются основой для победителей в нескольких категориях, занявших первые места. Код был сделан общедоступным.

COCO/mAP 42.6

Быстрый старт

faster_rcnn_r50_1x_co co Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Абстракт

Современные сети обнаружения объектов зависят от алгоритмов предложения регионов, чтобы выдвигать гипотезы о местоположении объектов. Такие достижения, как SPPnet и Fast R-CNN, сократили время работы этих сетей обнаружения, выявив вычисление предложения региона как узкое место. В этой работе мы представляем сеть предложений регионов (RPN), которая разделяет функции полномасштабной свёрточной сети с сетью обнаружения, что позволяет практически бесплатно предлагать регионы. RPN представляет собой полностью свёрточную сеть, которая одновременно предсказывает границы объекта и оценки объектности в каждой позиции. RPN обучается сквозным образом для создания высококачественных предложений регионов, которые используются Fast R-CNN для обнаружения. Мы также объединяем RPN и Fast R-CNN в единую сеть, разделяя их свёрточные функции. Используя популярную в последнее время терминологию нейронных сетей с механизмами «внимания», компонент RPN указывает единой сети, где искать. Для очень глубокой модели VGG-16 наша система обнаружения имеет частоту кадров 5 кадров в секунду (включая все этапы) на графическом процессоре, достигая при этом самой современной точности обнаружения объектов в наборах данных PASCAL VOC 2007, 2012 и MS COCO всего с 300 предложениями на изображение. На соревнованиях ILSVRC и COCO 2015 Faster R-CNN и RPN стали основой для победителей, занявших несколько первых мест. Код был сделан общедоступным.

COCO/mAP 36.7

Быстрый старт

fcos_r50_fpn_1x_coco

FCOS: Fully Convolutional One-Stage Object Detection

Абстракт

Мы предлагаем полностью свёрточный одноэтапный детектор объектов (FCOS) для решения задачи обнаружения объектов методом предсказания каждого пикселя аналогично семантической сегментации. Почти все современные детекторы объектов, такие как RetinaNet, SSD, YOLOv3 и Faster R-CNN, полагаются на предопределённые якорные блоки. Напротив, наш предложенный детектор FCOS не использует якорные блоки, а также предложения. Устранив предопределённый набор якорных блоков, FCOS полностью избегает сложных вычислений, связанных с якорными блоками, таких как расчёт перекрытия во время обучения. Что ещё более важно, мы также избегаем всех гиперпараметров, связанных с якорными боксами, которые часто очень чувствительны к итоговой производительности обнаружения. С помощью только постобработки не максимального подавления (NMS) FCOS с ResNeXt-64x4d-101 достигает 44,7% в AP при тестировании одной модели и одного масштаба, превосходя предыдущие одноэтапные детекторы с преимуществом быть намного проще. Впервые мы демонстрируем гораздо более простую и гибкую структуру обнаружения, обеспечивающую повышенную точность обнаружения. Мы надеемся, что предложенная структура FCOS может служить простой и мощной альтернативой для многих других задач на уровне экземпляров. Код доступен по адресу: https.

COCO/mAP 39.6

Быстрый старт В последнее десятилетие наблюдается значительный прогресс в обнаружении объектов на аэрофотоснимках, которые часто имеют большие вариации масштаба и произвольные ориентации. Однако большинство существующих методов полагаются на эвристически определённые якоря с различными масштабами, углами и соотношениями сторон и обычно страдают от серьёзного несоответствия между якорными блоками и выровненными по осям свёрточными функциями, что приводит к общему несоответствию между оценкой классификации и точностью локализации.

Чтобы решить эту проблему, мы предлагаем сеть однократного выравнивания (S2A-Net), состоящую из двух модулей: модуля выравнивания признаков (FAM) и модуля ориентированного обнаружения (ODM). FAM может генерировать высококачественные якоря с помощью сети уточнения якорей и адаптивно выравнивать свёрточные функции в соответствии с якорными блоками с помощью новой свёртки выравнивания. ODM сначала применяет активные вращающиеся фильтры для кодирования информации об ориентации, а затем создаёт чувствительные к ориентации и инвариантные к ориентации признаки, чтобы уменьшить несоответствие между оценкой классификации и точностью локализации. Кроме того, мы дополнительно исследуем подход к обнаружению объектов на изображениях большого размера, который обеспечивает лучший компромисс между скоростью и точностью. Обширные эксперименты показывают, что наш метод может достичь современного уровня производительности на двух широко используемых наборах данных для воздушных объектов (DOTA и HRSC2016), сохраняя при этом высокую эффективность. Код доступен по этому URL. Свёрточные признаки, что приводит к общему несоответствию между оценкой классификации и точностью локализации. Чтобы решить эту проблему, мы предлагаем сеть однократного выравнивания (S2A-Net), состоящую из двух модулей: модуля выравнивания признаков (FAM) и модуля ориентированного обнаружения (ODM).

FAM может генерировать высококачественные якоря с помощью сети уточнения якорей и адаптивно выравнивать свёрточные признаки в соответствии с блоками якорей с помощью новой операции выравнивания свёртки. ODM сначала применяет активные вращающиеся фильтры для кодирования информации об ориентации, а затем создаёт чувствительные к ориентации и инвариантные к ней признаки, чтобы уменьшить несоответствие между оценкой классификации и точностью локализации.

Кроме того, мы также исследуем подход к обнаружению объектов на изображениях большого размера, что обеспечивает лучший компромисс между скоростью и точностью. Обширные эксперименты показывают, что наш метод может достичь лучших результатов на двух часто используемых наборах данных для воздушных объектов (DOTA и HRSC2016), сохраняя при этом высокую эффективность. Код доступен по этому URL-адресу https.

В этой работе мы стремимся создать простую, прямую и быструю систему сегментации экземпляров с высокими показателями производительности. Мы следуем принципу метода SOLO Ванга и др. «SOLO: сегментирование объектов по местоположению». Важно отметить, что мы делаем ещё один шаг вперёд, динамически обучая головку маски сегментатора объектов таким образом, чтобы головка маски зависела от местоположения. В частности, ветвь маски разделена на ветвь ядра маски и ветвь признаков маски, которые отвечают за изучение ядра свёртки и свёрнутых признаков соответственно.

Более того, мы предлагаем матричное подавление немаксимумов (NMS) для значительного снижения накладных расходов времени вывода из-за NMS масок. Наша матричная NMS выполняет NMS с параллельными матричными операциями за один раз и даёт лучшие результаты. Мы демонстрируем простую прямую систему сегментации экземпляров, превосходящую несколько современных методов как по скорости, так и по точности. Лёгкая версия SOLOv2 работает со скоростью 31,3 FPS и достигает 37,1% AP. Кроме того, наши передовые результаты в обнаружении объектов (из побочного продукта нашей маски) и панорамной сегментации показывают потенциал служить новой сильной базовой линией для многих задач распознавания на уровне экземпляров помимо сегментации экземпляров. Код доступен по адресу: этот URL-адрес https. Ниже представлен перевод текста на русский язык:

Превосходя несколько современных методов как по скорости, так и по точности. Лёгкая версия SOLOv2 выполняется со скоростью 31,3 FPS и даёт 37,1% AP. Более того, наши современные результаты в обнаружении объектов (из побочного продукта маски) и панорамной сегментации показывают потенциал служить новой сильной базой для многих задач распознавания на уровне экземпляров помимо сегментации экземпляров. Код доступен по адресу: этот URL https.

COCO/mAP 39. Быстрое начало.

mask_rcnn_r50_fpn_1x_coco. Mask R-CNN.

Представляем концептуально простой, гибкий и общий фреймворк для сегментации экземпляра объекта. Наш подход эффективно обнаруживает объекты на изображении, одновременно генерируя высококачественную маску сегментации для каждого экземпляра. Метод, называемый Mask R-CNN, расширяет Faster R-CNN путём добавления ветви для прогнозирования маски объекта параллельно с существующей ветвью для распознавания ограничивающего прямоугольника. Mask R-CNN прост в обучении и добавляет лишь небольшие накладные расходы к Faster R-CNN, работая со скоростью 5 кадров в секунду. Кроме того, Mask R-CNN легко обобщается на другие задачи, например, позволяя нам оценивать позы человека в той же структуре. Мы показываем лучшие результаты во всех трёх треках набора задач COCO, включая сегментацию экземпляров, обнаружение объектов с ограничивающими рамками и обнаружение ключевых точек человека. Без лишних сложностей Mask R-CNN превосходит все существующие одномодельные записи в каждой задаче, включая победителей конкурса COCO 2016. Мы надеемся, что наш простой и эффективный подход послужит надёжной основой и поможет облегчить будущие исследования в области распознавания на уровне экземпляра. Код был размещён по адресу: этот URL https.

COCO/mAP 39,2. Быстрое начало.

mask_rcnn_r50_1x_coco. Mask R-CNN.

Представляем концептуально простой, гибкий и общий фреймворк для сегментации экземпляра объекта. Наш подход эффективно обнаруживает объекты на изображении, одновременно генерируя высококачественную маску сегментации для каждого экземпляра. Метод, называемый Mask R-CNN, расширяет Faster R-CNN путём добавления ветви для прогнозирования маски объекта параллельно с существующей ветвью для распознавания ограничивающего прямоугольника. Mask R-CNN прост в обучении и добавляет лишь небольшие накладные расходы к Faster R-CNN, работая со скоростью 5 кадров в секунду. Кроме того, Mask R-CNN легко обобщается на другие задачи, например, позволяя нам оценивать позы человека в той же структуре. Мы показываем лучшие результаты во всех трёх треках набора задач COCO, включая сегментацию экземпляров, обнаружение объектов с ограничивающими рамками и обнаружение ключевых точек человека. Без лишних сложностей Mask R-CNN превосходит все существующие одномодельные записи в каждой задаче, включая победителей конкурса COCO 2016. Мы надеемся, что наш простой и эффективный подход послужит надёжной основой и поможет облегчить будущие исследования в области распознавания на уровне экземпляра. Код был размещён по адресу: этот URL https.

COCO/mAP 37,4. Быстрое начало.

hrnet_w32_256x192. Deep High-Resolution Representation Learning for Human Pose Estimation.

Это официальная реализация pytorch глубокого обучения представлению высокого разрешения для оценки позы человека. Оценка. В этой работе мы рассматриваем задачу оценки позы человека с акцентом на обучении надёжным представлениям с высоким разрешением. Большинство существующих методов восстанавливают представления с высоким разрешением из представлений с низким разрешением, полученных сетью с преобразованием из высокого разрешения в низкое. Вместо этого наша предложенная сеть поддерживает представления с высоким разрешением на протяжении всего процесса.

Мы начинаем с подсети с высоким разрешением в качестве первого этапа, постепенно добавляем подсети с преобразованием из высокого в низкое разрешение одну за другой для формирования большего количества этапов и соединяем подсети с разным разрешением параллельно. Мы проводим многократные слияния в разных масштабах, так что каждое представление с преобразованием из высокого в низкое получает информацию от других параллельных представлений снова и снова, что приводит к богатым представлениям с высоким разрешением. В результате прогнозируемая тепловая карта ключевых точек потенциально более точна и пространственно более точна.

Эффективность нашей сети эмпирически демонстрируется превосходными результатами оценки позы по двум эталонным наборам данных: набору данных COCO для обнаружения ключевых точек и набору данных MPII Human Pose. Код и модели были опубликованы по адресу \url{this https URL}.

Примечание: в ответе сохранены оригинальное форматирование текста и спецсимволы. 31.

Faster. As always, all the code is online at this https URL.

32.

Быстрее. Как всегда, весь код доступен онлайн по этому адресу https.

33.

Объектное детектирование — одна из важнейших областей компьютерного зрения, играющая ключевую роль в различных практических сценариях. Из-за ограничений аппаратного обеспечения часто приходится жертвовать точностью ради скорости вывода детектора на практике. Поэтому необходимо учитывать баланс между эффективностью и результативностью детектора объектов. Цель этой статьи — реализовать детектор объектов с относительно сбалансированной эффективностью и результативностью, который можно непосредственно применять в реальных сценариях использования, а не предлагать новую модель обнаружения. Учитывая, что YOLOv3 широко используется на практике, мы разрабатываем новый детектор объектов на основе YOLOv3. Мы в основном пытаемся объединить различные существующие приёмы, которые почти не увеличивают количество параметров модели и FLOPs, чтобы достичь цели максимально повысить точность детектора при сохранении почти неизменной скорости. Поскольку все эксперименты в этой статье проводятся на базе PaddlePaddle, мы называем его PP-YOLO. Сочетая несколько приёмов, PP-YOLO может достичь лучшего баланса между результативностью (45,2% mAP) и эффективностью (72,9 FPS), превосходя существующие современные детекторы, такие как EfficientDet и YOLOv4. Исходный код находится по этому URL-адресу.

34. ПП-ЙОЛО: эффективная и действенная реализация детектора объектов

Детектирование объектов — одна из важнейших областей компьютерного зрения, играющая ключевую роль в различных практических сценариях. Из-за ограничений аппаратного обеспечения часто приходится жертвовать точностью, чтобы обеспечить скорость вывода данных детектора на практике. Поэтому необходимо учитывать баланс между эффективностью и результативностью детектора объектов. Цель этой статьи — реализовать детектор объектов с относительно сбалансированной эффективностью и результативностью, который можно непосредственно применять в реальных сценариях использования, а не предлагать новую модель обнаружения.

Учитывая, что YOLOv3 широко используется на практике, мы разрабатываем новый детектор объектов на основе YOLOv3. Мы в основном пытаемся объединить различные существующие методы, которые почти не увеличивают количество параметров модели и FLOPs, чтобы достичь цели максимально возможного повышения точности детектора при обеспечении того, чтобы скорость практически не изменилась. Поскольку все эксперименты в этой статье проводятся на базе PaddlePaddle, мы называем его PP-YOLO.

Комбинируя несколько методов, PP-YOLO может достичь лучшего баланса между эффективностью (45,2% mAP) и результативностью (72,9 FPS), превосходя существующие передовые детекторы, такие как EfficientDet и YOLOv4. Исходный код доступен по этому URL-адресу. PP-YOLO: эффективный и производительный детектор объектов

Детектирование объектов — одна из важнейших областей компьютерного зрения, играющая ключевую роль в различных практических сценариях. Из-за ограничений аппаратного обеспечения часто приходится жертвовать точностью ради скорости работы детектора на практике. Поэтому необходимо учитывать баланс между эффективностью и производительностью детектора объектов.

Цель этой статьи — реализовать детектор с относительно сбалансированной эффективностью и производительностью, который можно непосредственно применять в реальных сценариях, а не предлагать новую модель обнаружения. Учитывая широкое использование YOLOv3 на практике, мы разрабатываем новый детектор на основе YOLOv3. Мы в основном пытаемся объединить различные существующие приёмы, которые почти не увеличивают количество параметров модели и FLOPs, чтобы максимально повысить точность детектора при сохранении практически неизменной скорости. Поскольку все эксперименты в этой статье проводятся на базе PaddlePaddle, мы называем его PP-YOLO.

Комбинируя несколько приёмов, PP-YOLO может достичь лучшего баланса между эффективностью (45,2% mAP) и производительностью (72,9 FPS), превосходя существующие современные детекторы, такие как EfficientDet и YOLOv4. Исходный код доступен по этому URL-адресу.

Примечание: в тексте запроса присутствуют ссылки, которые не были переведены. YOLOv4-CSP, YOLOv5l

Кроме того, PP-YOLOv2 с ResNet101 достигает 50,3% mAP на COCO2017 test-dev. Исходный код доступен по этому URL-адресу https.

COCO/mAP 49,1

Быстрое начало.

39

deformable_detr_r50_1 x_coco.

Fundamental Vision: Deformable DETR: Deformable Transformers for End-to-End Object Detection.

—

Быстрое начало.

40

detr_r50_1x_coco.

DETR: End-to-End Object Detection with Transformers.

—

Быстрое начало.

41

sparse_rcnn_r50_fpn_3 x_pro100_coco.

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals.

—

Быстрое начало.

42

retinanet_r50_fpn_1x coco.

Focal Loss for Dense Object Detection.

—

Быстрое начало.

43

yolox_s_300e_coco.

YOLOX: Exceeding YOLO Series in 2021.

В этом отчёте мы представляем некоторые опытные улучшения серии YOLO, формируя новый высокопроизводительный детектор — YOLOX. Мы переключаем детектор YOLO на бесякорный способ и проводим другие передовые методы обнаружения, например, развязанную голову и ведущую стратегию назначения меток SimOTA для достижения современных результатов в широком диапазоне моделей: для YOLO-Nano с всего лишь 0,91 млн параметров и 1,08 млрд FLOPS мы получаем 25,3% AP на COCO, превосходя NanoDet на 1,8% AP; для YOLOv3, одного из наиболее широко используемых детекторов в промышленности, мы повышаем его до 47,3% AP на COCO, опережая текущую лучшую практику на 3,0% AP; для YOLOX-L с примерно таким же количеством параметров, как YOLOv4-CSP и YOLOv5-L, мы достигаем 50,0% AP на COCO со скоростью 68,9 FPS на Tesla V100, превышая YOLOv5-L на 1,8% AP. Кроме того, мы заняли первое место на конкурсе Streaming Perception Challenge (Workshop on Autonomous Driving at CVPR 2021), используя одну модель YOLOX-L. Мы надеемся, что этот отчёт может предоставить полезный опыт разработчикам и исследователям в практических сценариях, и мы также предоставляем версии развёртывания с поддержкой ONNX, TensorRT, NCNN и Openvino.

COCO: 50,1.

Быстрое начало.

44

tood_r50_fpn_1x_coco.

TOOD: Task-aligned One-stage Object Detection.

Одностадийное обнаружение объектов обычно реализуется путём оптимизации двух подзадач: классификации объектов и локализации с использованием голов с двумя параллельными ветвями, что может привести к определённому уровню пространственного... Несоответствие в предсказаниях между двумя задачами.

В этой работе мы предлагаем метод обнаружения объектов на основе одной стадии с согласованием задач (TOOD), который явно согласовывает две задачи на основе обучения.

Во-первых, мы разрабатываем новую головку с согласованием задач (T-Head), которая обеспечивает лучший баланс между интерактивными и специфическими для задач функциями обучения, а также большую гибкость для изучения согласования с помощью предиктора с согласованием задач.

Во-вторых, мы предлагаем обучение с согласованием задач (TAL), чтобы явно сблизить (или даже объединить) оптимальные якоря для двух задач во время обучения с помощью разработанной схемы назначения выборки и потери с согласованием задач.

Обширные эксперименты проводятся на MS-COCO, где TOOD достигает 51,1 AP при тестировании одной модели и одного масштаба. Это значительно превосходит недавние одноэтапные детекторы, такие как ATSS (47,7 AP), GFL (48,2 AP) и PAA (49,0 AP), с меньшим количеством параметров и FLOPs. Качественные результаты также демонстрируют эффективность TOOD для лучшего согласования задач классификации и локализации объектов.

45. GFL_R50_FPN_1x_coco

Детектор на основе одной стадии в основном формулирует обнаружение объектов как плотную классификацию и локализацию. Классификация обычно оптимизируется с помощью Focal Loss, а местоположение блока обычно изучается в соответствии с распределением Дирака дельта. Недавняя тенденция для одностадийных детекторов заключается во введении отдельной ветви прогнозирования для оценки качества локализации, где прогнозируемое качество способствует классификации для повышения эффективности обнаружения. В этой статье подробно рассматриваются представления трёх основных элементов: оценка качества, классификация и локализация.

Выявлены две проблемы существующих методов, включая (1) непоследовательное использование оценки качества и классификации между обучением и выводом и (2) негибкое распределение Дирака дельта для локализации при наличии двусмысленности и неопределённости в сложных сценах. Для решения проблем мы разрабатываем новые представления для этих элементов.

Мы объединяем оценку качества в вектор предсказания класса, чтобы сформировать совместное представление о качестве локализации и классификации, и используем вектор для представления произвольного распределения местоположений блоков. Улучшенные представления устраняют риск несогласованности и точно отображают гибкое распределение в реальных данных, но содержат непрерывные метки, что выходит за рамки Focal Loss. Затем мы предлагаем обобщённую Focal Loss (GFL), которая обобщает Focal Loss от его дискретной формы до непрерывной версии для успешной оптимизации. На COCO test-dev GFL достигает 45,0% AP с использованием магистрали ResNet-101, превосходя современные SAPD (43,5%) и ATSS (43,6%) с более высокой или сопоставимой скоростью вывода при одинаковых настройках магистрали и обучения. Примечательно, что наша лучшая модель может достичь AP одной модели одного масштаба 48,2% при 10 FPS на одном графическом процессоре 2080Ti.

46. PP-YOLOE-R

Обнаружение объектов произвольной ориентации является фундаментальной задачей в визуальных сценах, включающих аэрофотоснимки и текст сцены. В этом отчёте мы представляем PP-YOLOE-R, эффективный детектор объектов с произвольным вращением без привязки, основанный на PP-YOLOE. Мы вводим набор полезных приёмов в PP-YOLOE-R для повышения точности обнаружения с незначительными дополнительными параметрами и вычислительными затратами. В результате PP-YOLOE-R-l и PP-YOLOE-R-x достигают 78,14 и 78,28 mAP соответственно на DOTA 1.0. Набор данных с одномасштабным обучением и тестированием, который превосходит почти все другие детекторы объектов с вращением. При многомасштабном обучении и тестировании PP-YOLOE-R-l и PP-YOLOE-R-x дополнительно улучшают точность обнаружения до 80,02 и 80,73 mAP соответственно. В этом случае PP-YOLOE-R-x превосходит все методы без привязки и демонстрирует производительность, сопоставимую с современными двухэтапными моделями на основе привязки. Кроме того, PP-YOLOE-R удобен для развёртывания, а PP-YOLOE-R-s/m/l/x может достигать 69,8/55,1/48,3/37,1 FPS соответственно на RTX 2080 Ti с TensorRT и точностью FP16.

PP-YOLOE-R-s DOTA 1.0 map=73,82%.

Быстрый старт.

OC-SORT.

MOT-17 half train MOT A=50,1%.

Быстрый старт.

ViTDET.

VIT-large AP=55,7%.

Быстрый старт. PaddleSeg

PaddleSeg

Номер Сокращённое название модели Название статьи (ссылка) Аннотация Набор данных Быстрый старт

1 PP-HumanSeg-Server (DeepLabv3p_resnet50) Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
Abstract
В глубоких нейронных сетях для задачи семантической сегментации используются модуль пространственной пирамидальной свёртки или структура кодировщика-декодера. Первые сети способны кодировать многомасштабную контекстную информацию, исследуя входящие признаки с помощью фильтров или операций объединения на разных частотах и с разными эффективными полями зрения, в то время как вторые сети могут улавливать более чёткие границы объектов, постепенно восстанавливая пространственную информацию. В этой работе мы предлагаем объединить преимущества обоих методов. В частности, наша предложенная модель DeepLabv3+ расширяет DeepLabv3, добавляя простой, но эффективный модуль декодера для уточнения результатов сегментации, особенно вдоль границ объектов. Мы также исследуем модель Xception и применяем глубинную разделимую свёртку как к пространственному объединению пирамид с отверстиями, так и к модулям декодера, что приводит к более быстрой и мощной сети кодировщик-декодер. Мы демонстрируем эффективность предложенной модели на наборах данных PASCAL VOC 2012 и Cityscapes, достигая производительности тестового набора в 89,0 % и 82,1 % без какой-либо постобработки. Наша статья сопровождается общедоступной эталонной реализацией предложенных моделей в Tensorflow по адресу https://github.com/tensorflow/models/tree/master/research/deeplab.
Внутренний набор данных изображений людей / mIoU = 97,16% Быстрый старт

2 PP-Matting Is a Green Screen Really Necessary for Real-Time Portrait Matting?
Abstract
Для матирования портрета без...
... Быстрый старт

Зелёному экрану для ретуши портретов в реальном времени больше не нужен?
Лёгкая сеть для разложения задачи ретуши (MODNet)

Существующие решения либо требуют дорогостоящих дополнительных входных данных, либо используют несколько моделей, что делает их вычислительно затратными. В результате они недоступны для приложений реального времени.

В отличие от них, мы представляем лёгкую сеть для разложения задач ретуши MODNet, которая может обрабатывать ретушь портрета по одному входному изображению в реальном времени. Дизайн MODNet основан на оптимизации серии взаимосвязанных подзадач одновременно с помощью явных ограничений.

Более того, поскольку методы без использования тримапа обычно страдают от проблемы смещения домена на практике, мы предлагаем:

стратегию обучения без учителя, основанную на согласованности подзадач, чтобы адаптировать MODNet к реальным данным;

трюк с задержкой в один кадр, чтобы сгладить результаты при применении MODNet к последовательности видеопортретов.

MODNet легко обучается сквозным методом. Он намного быстрее современных методов ретуши и работает со скоростью 63 кадра в секунду. На специально разработанном новом бенчмарке ретуши портрета MODNet значительно превосходит предыдущие методы без тримапов. Что ещё более важно, наш метод достигает выдающихся результатов на повседневных фотографиях и видео.

Теперь вам действительно нужен зелёный экран для ретуши портретов в реальном времени?

Далее идёт текст, который не удалось перевести из-за отсутствия контекста.

FCN_HRNet_W18_small

Быстрое начало.

Deep High-Resolution Representation Learning for Visual Recognition.

Представлены характеристики и коды.

Внутреннее изображение человека / mIoU = 94,51 %.

Быстрое начало.

FCN_HRNet_W18

Быстрое начало.

Deep High-Resolution Representation Learning for Visual Recognition.

Представлены характеристики и коды. HRNet: более сильная основа для задач компьютерного зрения

Мы показываем превосходство предложенного HRNet в широком спектре приложений, включая оценку позы человека, семантическую сегментацию и обнаружение объектов, предполагая, что HRNet является более сильной основой для задач компьютерного видения. Весь код доступен по адресу {\url{this https URL}}.

Внутренние данные о человеческих образах / mIoU = 94,51%

Fast-SCNN: сеть быстрой семантической сегментации

Архитектура кодировщика-декодера является передовой для автономной семантической сегментации изображений. С ростом автономных систем всё более желательными становятся вычисления в реальном времени. В этой статье мы представляем Fast-SCNN — модель семантической сегментации выше реального времени для данных изображений высокого разрешения (1024x2048 пикселей), подходящую для эффективных вычислений на встроенных устройствах с низкой памятью. Основываясь на существующих двухветвевых методах быстрой сегментации, мы представляем наш модуль «обучение уменьшению», который вычисляет низкоуровневые функции для нескольких ветвей разрешения одновременно. Наша сеть сочетает пространственные детали с высоким разрешением и глубокие функции, извлечённые с низким разрешением, обеспечивая точность 68,0% среднего пересечения над объединением при 123,5 кадрах в секунду на Cityscapes. Мы также показываем, что крупномасштабное предварительное обучение не требуется. Мы тщательно проверяем нашу метрику в экспериментах с предварительным обучением ImageNet и грубыми помеченными данными Cityscapes. Наконец, мы показываем ещё более быстрые вычисления с конкурентоспособными результатами на субдискретизированных входах без каких-либо модификаций сети.

Cityscapes / mIoU = 69,31%

OCRNet_HRNetW48: объектно-контекстные представления для семантической сегментации

В этой статье мы рассматриваем проблему семантической сегментации с акцентом на стратегию агрегации контекста. Наша мотивация заключается в том, что метка пикселя является категорией объекта, к которому принадлежит пиксель. Мы представляем простой, но эффективный подход, объектно-контекстное представление, характеризующее пиксель, используя представление соответствующего класса объекта. Сначала мы изучаем области объектов под контролем сегментации наземной истины. Затем мы вычисляем представление области объекта путём агрегирования представлений пикселей, лежащих в области объекта. Наконец, мы вычисляем отношение между каждым пикселем и каждой областью объекта и дополняем представление каждого пикселя объектно-контекстными представлениями, которые представляют собой взвешенную агрегацию всех представлений областей объектов в соответствии с их отношениями с пикселем. Мы эмпирически демонстрируем, что предложенный подход достигает конкурентной производительности на различных сложных бенчмарках семантической сегментации: Cityscapes, ADE20K, LIP, PASCAL-Context и COCO-Stuff. Наш вклад «HRNet + OCR + SegFix» занимает 1-е место в списке лидеров Cityscapes на момент подачи заявки. Код доступен по адресам: https://git.io/openseg и https://git.io/HRNet.OCR. Мы переформулируем схему объектно-контекстного представления, используя структуру кодировщика-декодировщика Transformer. Подробности представлены в разделе 3.3.

Cityscapes / mIoU = 80,67% Из сети STDC. В декодере мы предлагаем модуль агрегации деталей путём интеграции обучения пространственной информации в низкоуровневые слои однопотоковым способом.

Наконец, низкоуровневые и глубокие признаки объединяются для прогнозирования окончательных результатов сегментации. Обширные эксперименты на наборах данных Cityscapes и CamVid демонстрируют эффективность нашего метода, достигая многообещающего компромисса между точностью сегментации и скоростью вывода. На Cityscapes мы достигаем 71,9% mIoU в тестовом наборе со скоростью 250,4 FPS на NVIDIA GTX 1080Ti, что на 45,2% быстрее, чем у последних методов, и достигаем 76,8% mIoU с 97,0 FPS при выводе на изображениях более высокого разрешения.

12. PFPNNet. В этой статье мы решаем задачу сегментации сцены, захватывая богатые контекстные зависимости на основе механизма самовнимания. В отличие от предыдущих работ, которые захватывают контексты путём слияния мультимасштабных признаков, мы предлагаем Dual Attention Networks (DANet) для адаптивной интеграции локальных признаков с их глобальными зависимостями.

В частности, мы добавляем два типа модулей внимания поверх традиционных расширенных FCN, которые моделируют семантические взаимозависимости в пространственном и канальном измерениях соответственно. Модуль внимания позиции выборочно объединяет признаки в каждой позиции взвешенной суммой признаков во всех позициях. Похожие признаки будут связаны друг с другом независимо от расстояния.

Одновременно модуль внимания канала выборочно подчёркивает взаимозависимые карты каналов путём объединения связанных признаков среди всех карт каналов. Мы суммируем выходы двух модулей внимания для дальнейшего улучшения представления признаков, что способствует более точным результатам сегментации.

Мы достигаем новых лучших результатов сегментации на трёх сложных наборах данных для сегментации сцен: Cityscapes, PASCAL Context и COCO Stuff. В частности, на тестовом наборе Cityscapes достигается оценка Mean IoU 81,5% без использования грубых данных. Код и обученную модель мы сделали общедоступными по адресу https://github.com/junfu1115/DANet.

13. DDRNet_23 (DDRNet). В этой статье мы решаем задачу сегментации сцены, захватывая богатые контекстные зависимости на основе механизма самовнимания. В отличие от предыдущих работ, которые захватывают контексты путём слияния мультимасштабных признаков, мы предлагаем Dual Attention Networks (DANet) для адаптивной интеграции локальных признаков с их глобальными зависимостями. В этой статье мы рассматриваем задачу сегментации сцены, захватывая богатые контекстные зависимости на основе механизма самовнимания. В отличие от предыдущих работ, которые захватывают контексты путём слияния многомасштабных признаков, мы предлагаем Dual Attention Networks (DANet) для адаптивной интеграции локальных признаков с их глобальными зависимостями.

В частности, мы добавляем два типа модулей внимания поверх традиционной расширенной FCN, которая моделирует семантические взаимозависимости в пространственном и канальном измерениях соответственно. Модуль внимания позиции выборочно объединяет признаки в каждой позиции взвешенной суммой признаков во всех позициях. Подобные признаки будут связаны друг с другом независимо от их расстояния.

Тем временем модуль внимания канала выборочно подчёркивает взаимозависимые карты каналов путём объединения связанных признаков среди всех карт каналов. Мы суммируем выходы двух модулей внимания для дальнейшего улучшения представления признаков, что способствует более точным результатам сегментации.

Мы достигаем нового уровня производительности сегментации на трёх сложных наборах данных сегментации сцен: Cityscapes, PASCAL Context и COCO Stuff. В частности, на тестовом наборе Cityscapes достигается оценка Mean IoU 81,5% без использования грубых данных. Код и обученную модель мы сделали общедоступными по ссылке. В исходный текст без перевода были добавлены отступы для лучшей читаемости.

В запросе основной язык текста — английский.

Текст запроса в переводе на русский язык:

в пространство взаимодействия, где реляционное рассуждение может быть эффективно вычислено. После рассуждения функции, учитывающие отношения, распределяются обратно в исходное координатное пространство для последующих задач. Далее мы представляем высокоэффективную реализацию предложенного подхода и вводим блок глобального рассуждения (GloRe unit), который реализует сопоставление пространства координат и взаимодействия с помощью взвешенного глобального объединения и взвешенного широковещания, а также рассуждения о связях через свёртку графа на небольшом графе в пространстве взаимодействия. Предлагаемый блок GloRe является лёгким, обучаемым сквозным образом и может быть легко включён в существующие CNN для широкого спектра задач. Обширные эксперименты показывают, что наш блок GloRe может последовательно повышать производительность современных базовых архитектур, включая ResNet [15, 16], ResNeXt [33], SE-Net [18] и DPN [9], как для 2D, так и для 3D CNN, для задач классификации изображений, семантической сегментации и распознавания видеодействий.

Cityscapes/Resnet50/m

IoU=78,26%

Быстрый старт

BiSeNetV1

Bilateral Segmentation Network for Real-time Semantic Segmentation

Семантическая сегментация требует как богатой пространственной информации, так и значительного поля восприятия. Однако современные подходы обычно жертвуют пространственным разрешением для достижения скорости вывода в реальном времени, что приводит к снижению производительности. В этой статье мы решаем эту дилемму с помощью новой сети двусторонней сегментации (BiSeNet). Сначала мы разрабатываем пространственный путь с небольшим шагом, чтобы сохранить пространственную информацию и создать функции высокого разрешения. Тем временем используется путь контекста с быстрой стратегией понижающей дискретизации для получения достаточного поля восприятия. На основе этих двух путей мы вводим новый модуль слияния функций для эффективного объединения функций. Предложенная архитектура обеспечивает правильный баланс между скоростью и производительностью сегментации на наборах данных Cityscapes, CamVid и COCO-Stuff. В частности, для входных данных размером 2048x1024 мы достигаем среднего показателя IoU 68,4% на тестовом наборе данных Cityscapes со скоростью 105 FPS на одной карте NVIDIA Titan XP, что значительно быстрее, чем у существующих методов с сопоставимой производительностью.

Cityscapes / mIoU = 75,19%

Быстрый старт

UPERNet

FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation

Современные подходы к семантической сегментации обычно используют расширенные свёрточные слои в базовой сети для извлечения карт функций высокого разрешения, что приводит к высокой сложности вычислений и большому объёму памяти. Чтобы заменить затратные по времени и памяти расширенные свёртки, мы предлагаем новый совместный модуль повышающей дискретизации под названием Joint Pyramid Upsampling (JPU), формулируя задачу извлечения карт признаков высокого разрешения как совместную проблему повышающей дискретизации. С помощью предложенного JPU наш метод снижает сложность вычислений более чем в три раза без потери производительности. Эксперименты показывают, что JPU превосходит другие модули повышающей дискретизации, которые можно включить во многие существующие методы для снижения сложности вычислений и повышения производительности. Заменив расширенные свёртки предложенным модулем JPU, наш метод достигает наилучшей производительности в наборе данных Pascal Context (mIoU 53,13%) и наборе данных ADE20K (финальный балл 0,5584), работая при этом в 3 раза быстрее.

ADE20K / mIoU = 43,76%

Быстрый старт

HRNetW48Contrast

Exploring Cross-Image Pixel Contrast for Semantic Segmentation Кросс-имадж пиксель контраст фор семантик сгментация

Аннотация

Современные методы семантической сегментации фокусируются только на анализе «локального» контекста, то есть зависимостей между пикселями в отдельных изображениях, с помощью модулей агрегирования контекста (например, расширенной свёртки) или критериев оптимизации, учитывающих структуру (например, потери IoU). Однако они игнорируют «глобальный» контекст обучающих данных, то есть богатые семантические связи между пикселями разных изображений.

Вдохновлённые недавним прогрессом в неконтролируемом контрастивном обучении представлений, мы предлагаем пиксельную контрастную систему для семантической сегментации в полностью контролируемой среде. Основная идея заключается в том, чтобы сделать так, чтобы пиксельные вложения, принадлежащие одному и тому же семантическому классу, были более похожи, чем вложения из разных классов. Это создаёт парадигму метрического обучения для пиксельной семантической сегментации, явно исследуя структуры помеченных пикселей, которые ранее редко изучались. Наш метод можно легко интегрировать в существующие системы сегментации без дополнительных затрат во время тестирования. Мы экспериментально показываем, что с известными моделями сегментации (DeepLabV3, HRNet, OCR) и базовыми сетями (ResNet, HR-Net) наш метод обеспечивает постоянное улучшение производительности в различных наборах данных (Cityscapes, PASCAL-Context, COCO-Stuff, CamVid). Мы ожидаем, что эта работа побудит наше сообщество переосмыслить текущую де-факто парадигму обучения в полностью контролируемой семантической сегментации.

Ситискейпс / mIoU = 82,3 %

Быстрый старт

ENCNet: контекстное кодирование для семантической сегментации

Аннотация

Недавние работы добились значительного прогресса в улучшении пространственного разрешения для попиксельной маркировки с использованием фреймворка полностью свёрточной сети (FCN) за счёт использования расширенной/атрозной свёртки, использования многомасштабных функций и уточнения границ. В этой статье мы исследуем влияние глобальной контекстной информации на семантическую сегментацию, вводя модуль кодирования контекста, который фиксирует семантический контекст сцен и выборочно выделяет карты признаков, зависящих от класса. Предлагаемый модуль кодирования контекста значительно улучшает результаты семантической сегментации при лишь незначительных дополнительных вычислительных затратах по сравнению с FCN. Наш подход достиг новых результатов мирового уровня — 51,7 % mIoU на PASCAL-Context и 85,9 % mIoU на PASCAL VOC 2012. Наша единственная модель достигает окончательного балла 0,5567 на тестовом наборе ADE20K, что превосходит победившую заявку на COCO-Place Challenge в 2017 году. Кроме того, мы также исследуем, как модуль кодирования контекста может улучшить представление признаков относительно неглубоких сетей для классификации изображений на наборе данных CIFAR-10. Наша 14-слойная сеть достигла частоты ошибок 3,45 %, что сопоставимо с современными подходами с более чем в 10 раз большим количеством слоёв. Исходный код для всей системы доступен публично.

Ситискейпс / mIoU = 79,42 %

Быстрый старт

ESPNetV1: эффективная пространственная пирамида расширенных свёрток для семантической сегментации

Аннотация

Мы представляем быструю и эффективную свёрточную нейронную сеть, ESPNet, для семантической сегментации изображений высокого разрешения в условиях ограниченных ресурсов. ESPNet основан на новом свёрточном модуле, эффективной пространственной пирамиде (ESP), которая эффективна с точки зрения вычислений, памяти и мощности. ESPNet в 22 раза быстрее (на стандартном графическом процессоре) и в 180 раз меньше, чем современная сеть семантической сегментации PSPNet, в то время как её точность по категориям составляет всего 8 %. Мы оценили ESPNet на различных наборах данных семантической сегментации, включая Cityscapes, PASCAL VOC и набор данных для полномасштабных изображений биопсии молочной железы.

При одинаковых ограничениях по памяти и вычислениям ESPNet превосходит все современные эффективные сети CNN, такие как MobileNet, ShuffleNet и ENet, как по стандартным метрикам, так и по нашим недавно введённым метрикам производительности, которые измеряют эффективность на периферийных устройствах. Наша сеть может обрабатывать изображения с высоким разрешением со скоростью 112 и 9 кадров в секунду на стандартном GPU и периферийном устройстве соответственно.

Cityscapes/mIoU=61,82 %.

Быстрое начало.

ESPNetV2.

ESPNetv2: лёгкая, энергоэффективная и универсальная свёрточная нейронная сеть.

Мы представляем лёгкую, энергоэффективную и универсальную свёрточную нейронную сеть ESPNetv2 для моделирования визуальных и последовательных данных. Наша сеть использует групповые точечные и расширенные разделимые свёртки для изучения представлений из большого эффективного рецептивного поля с меньшим количеством FLOPs и параметров.

Производительность нашей сети оценивается по четырём различным задачам: (1) классификация объектов, (2) семантическая сегментация, (3) обнаружение объектов и (4) языковое моделирование. Эксперименты по этим задачам, включая классификацию изображений на ImageNet и языковое моделирование на наборе данных PenTree bank, демонстрируют превосходную производительность нашего метода по сравнению с современными методами.

Наша сеть превосходит ESPNet на 4–5 % и имеет в 2–4 раза меньше FLOPs на PASCAL VOC и Cityscapes. По сравнению с YOLOv2 на MS-COCO обнаружении объектов ESPNetv2 обеспечивает точность на 4,4 % выше при 6-кратном меньшем количестве FLOPs. Наши эксперименты показывают, что ESPNetv2 намного более энергоэффективен, чем существующие современные методы, включая ShuffleNets и MobileNets. Наш код является открытым исходным кодом и доступен по адресу https://github.com/sacmehta/ESPNetv2.

Cityscapes/mIoU = 70,88 %. Быстрое начало.

DMNet. Динамические многомасштабные фильтры для семантической сегментации.

Многомасштабное представление обеспечивает эффективный способ решения проблемы изменения масштаба объектов и вещей при семантической сегментации. Предыдущие работы создают многомасштабное представление, используя различные размеры фильтров, расширяя размеры фильтров с помощью расширенных фильтров или сеток пула, и параметры этих фильтров фиксируются после обучения. Эти методы часто страдают от больших вычислительных затрат или имеют больше параметров и не адаптируются к входному изображению во время вывода. Чтобы решить эти проблемы, в этой статье предлагается динамическая многомасштабная сеть (DMNet) для адаптивного захвата многомасштабного содержимого для прогнозирования пиксельных семантических меток.

DMNet состоит из нескольких параллельных динамических свёрточных модулей (DCM), каждый из которых использует контекстно-зависимые фильтры для оценки семантического представления для определённого масштаба. Выходные данные нескольких DCM дополнительно интегрируются для окончательной сегментации. Мы проводим обширные эксперименты, чтобы оценить наш DMNet на трёх сложных наборах данных для семантической сегментации и анализа сцен: PASCAL VOC 2012, Pascal-Context и ADE20K.

DMNet достигает нового рекорда 84,4% mIoU на тестовом наборе PASCAL VOC 2012 без предварительной подготовки MS COCO и постобработки, а также демонстрирует лучшие результаты на Pascal-Context и ADE20K.

Cityscapes/mIoU = 79,67 %. Быстрое начало.

PP-HumanSegV2. PP-HumanSeg-V2: переосмысление портретной сегментации в реальном времени. Сегментация

Мы предлагаем PP-Humanseg-V2, новую модель для задачи сегментации портретов в реальном времени. В частности, PP-HumanSeg-V2 использует популярную архитектуру кодировщик-декодер с модулем агрегации контекста. Сначала PP-HumanSeg-V2 принимает упрощённый MobileNetV3 в качестве основы для извлечения иерархических карт признаков. Затем SPPM служит модулем агрегации контекста для моделирования зависимостей на больших расстояниях. Наконец, мы разрабатываем многоуровневый модуль слияния в декодере для получения результата сегментации портрета.

Основываясь на экспериментальных результатах на наборах данных EG1800 и PP-HumanSeg14K, PP-HumanSeg-V2 достигает современного уровня производительности с точки зрения точности сегментации и скорости вывода.

PP-MattingV2

PP-MattingV2 для эффективной задачи матирования.

(LR)ASPP-MV3

Представляем следующее поколение MobileNets, основанное на сочетании взаимодополняющих методов поиска, а также нового дизайна архитектуры. MobileNetV3 настроен на мобильные телефоны через сочетание аппаратно-зависимого поиска сетевой архитектуры (NAS), дополненного алгоритмом NetAdapt, а затем улучшен за счёт новых достижений в архитектуре. Эта статья начинает исследование того, как автоматизированные алгоритмы поиска и дизайн сети могут работать вместе, чтобы использовать взаимодополняющие подходы, улучшая общее состояние искусства.

В ходе этого процесса мы создаём две новые модели MobileNet: MobileNetV3-Large и MobileNetV3-Small, предназначенные для случаев использования с высоким и низким уровнем ресурсов. Эти модели затем адаптируются и применяются к задачам обнаружения объектов и семантической сегментации. Для задачи семантической сегментации (или любого плотного предсказания пикселей) мы предлагаем новый эффективный декодер сегментации Lite Reduced Atrous Spatial Pyramid Pooling (LR-ASPP). Мы достигаем новых результатов в области мобильной классификации, обнаружения и сегментации.

MobileNetV3-Large на 3,2% точнее при классификации ImageNet, снижая задержку на 15% по сравнению с MobileNetV2. MobileNetV3-Small на 4,6% точнее, уменьшая задержку на 5% по сравнению с MobileNetV2. Обнаружение MobileNetV3-Large происходит на 25% быстрее при примерно той же точности, что и у MobileNetV2 на COCO. MobileNetV3-Large LR-ASPP на 30% быстрее, чем R-ASPP MobileNetV2 при аналогичной точности для сегментации Cityscapes.

UperNet

Люди распознают визуальный мир на нескольких уровнях: мы легко классифицируем сцены и обнаруживаем объекты внутри, а также идентифицируем текстуры и поверхности объектов вместе с их различными композиционными частями. В этой статье мы изучаем новую задачу под названием Unified Perceptual Parsing, которая требует от систем машинного зрения распознать как можно больше визуальных концепций из данного изображения. Разработана многозадачная структура под названием UPerNet и стратегия обучения для изучения аннотаций разнородных изображений. RTFormer: Real-Time Transformer for Semantic Segmentation

Хотя трансформаторы в компьютерном зрении достигли больших успехов, их высокая вычислительная стоимость препятствует их применению для задач плотного прогнозирования, таких как семантическая сегментация на мобильных устройствах. В этой статье мы представляем дружественную к мобильным устройствам архитектуру под названием RTFormer (Real-Time Transformer). Предложенный RTFormer принимает токены из разных масштабов в качестве входных данных для создания семантических признаков, чувствительных к масштабу, которые затем вводятся в соответствующие токены для расширения представления.

Экспериментальные результаты показывают, что наш метод значительно превосходит сети на основе CNN и ViT по нескольким наборам данных семантической сегментации и достигает хорошего баланса между точностью и задержкой. На наборе данных ADE20K RTFormer достигает на 5% более высокой точности в mIoU, чем MobileNetV3, при меньшей задержке на мобильном устройстве на базе ARM. Кроме того, крошечная версия RTFormer обеспечивает вывод в реальном времени на мобильном устройстве на базе ARM с конкурентоспособными результатами. Код и модели доступны по адресу: https://github.com/hustvl/RTFormer. RTFormer: эффективный дизайн для семантической сегментации в реальном времени с использованием Transformer

В последнее время основанные на трансформаторах сети демонстрируют впечатляющие результаты в семантической сегментации. Однако для семантической сегментации в режиме реального времени подходы, основанные исключительно на CNN (свёрточных нейронных сетях), всё ещё доминируют в этой области из-за трудоёмкого вычислительного механизма трансформатора. Мы предлагаем RTFormer — эффективный дуалистический трансформатор для семантической сегментации в реальном времени, который обеспечивает лучший баланс между производительностью и эффективностью по сравнению с моделями на основе CNN.

Чтобы достичь высокой эффективности вывода на устройствах, подобных GPU, наш RTFormer использует дружественное к GPU внимание с линейной сложностью и отказывается от многоголового механизма. Кроме того, мы обнаружили, что кросс-разрешающее внимание более эффективно для сбора глобальной контекстной информации для высокоуровневой ветви путём распространения высокоуровневых знаний, полученных из низкоуровневой ветви. Обширные эксперименты на основных бенчмарках демонстрируют эффективность предложенного нами RTFormer. Он достигает лучших результатов на Cityscapes, CamVid и COCOStuff и показывает многообещающие результаты на ADE20K. Код доступен на PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.

U-HRNet: углублённое изучение улучшения семантического представления сети высокого разрешения для плотного прогнозирования

Высокое разрешение и продвинутое семантическое представление важны для плотного прогнозирования. Эмпирически карты признаков низкого разрешения часто достигают более сильного семантического представления, а карты признаков высокого разрешения обычно могут лучше идентифицировать локальные особенности, такие как края, но содержат более слабую семантическую информацию. Существующие передовые фреймворки, такие как HRNet, сохраняют карты признаков низкого и высокого разрешения параллельно и многократно обмениваются информацией между различными разрешениями. Однако мы считаем, что карта признаков самого низкого разрешения часто содержит самую сильную семантическую информацию, и необходимо пройти через большее количество слоёв, чтобы объединиться с картами признаков высокого разрешения. В то же время для карт признаков высокого разрешения вычислительные затраты каждого слоя свёртки очень велики, и нет необходимости проходить через такое большое количество слоёв. Поэтому мы разработали U-образную сеть высокого разрешения (U-HRNet), которая добавляет больше этапов после карты признаков с самым сильным семантическим представлением и ослабляет ограничение в HRNet, согласно которому все разрешения должны рассчитываться параллельно для вновь добавленного этапа. Больше вычислений отводится картам признаков низкого разрешения, что значительно улучшает общее семантическое представление. U-HRNet является заменой базовой сети HRNet и может достичь значительного улучшения на множестве наборов данных семантической сегментации и прогнозирования глубины при точно таких же настройках обучения и вывода, практически без увеличения объёма вычислений. Код доступен на PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.

UNETR: трансформаторы для 3D-сегментации медицинских изображений

Полностью свёрточные нейронные сети (FCNNs) с сокращающимися и расширяющимися путями показали свою значимость для большинства приложений сегментации медицинских изображений за последнее десятилетие. В FCNNs кодировщик играет важную роль, обучаясь как глобальным, так и... Впереди используется свёрточный слой внедрения перед трансформационными блоками. По сравнению с непосредственным выравниванием необработанных пикселей и применением одномерной предварительной обработки, свёрточный слой внедрения кодирует точную (то есть на уровне пикселей) пространственную информацию и предоставляет низкоуровневые, но высокоразрешающие 3D-признаки.

После блока внедрения трансформационные и свёрточные блоки понижающей дискретизации чередуются для полного переплетения долгосрочных зависимостей с высокоуровневыми и иерархическими концепциями объектов в различных масштабах, что помогает улучшить способность к обобщению и надёжность изученных представлений.

В таблице приведены результаты работы моделей для сегментации изображений в медицинских задачах:

№ Модель Ссылка Результат Ссылка для быстрого старта

37 SwinUNet Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation — https://github.com/.../Swin-Unet

38 nnUNet nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation — —

Системы оптического распознавания символов (OCR) широко используются в различных сценариях применения, таких как системы автоматизации делопроизводства (OA), автоматизация производства, онлайн-обучение, картография и т. д. Однако OCR всё ещё остаётся сложной задачей из-за разнообразия внешнего вида текста и требований к вычислительной эффективности. В этой статье мы предлагаем практическую сверхлёгкую систему OCR, а именно PP-OCR. Общий размер модели PP-OCR составляет всего 3,5 М для распознавания 6622 китайских иероглифов и 2,8 М для распознавания 63 буквенно-цифровых символов соответственно. Мы представляем ряд стратегий для улучшения способности модели или уменьшения её размера. Также представлены соответствующие эксперименты по удалению данных.

Кроме того, выпущено несколько предварительно обученных моделей для распознавания китайского и английского языков, включая детектор текста (используется 97 тыс. изображений), классификатор направления (используется 600 тыс. изображений) и распознаватель текста (используется 17,9 млн изображений). Кроме того, предложенная система PP-OCR также проверена в ряде других задач распознавания языков, включая французский, корейский, японский и немецкий. Все вышеупомянутые модели имеют открытый исходный код, и коды доступны в репозитории GitHub по этому URL-адресу. Системы оптического распознавания символов (OCR) широко используются в различных областях, таких как системы автоматизации делопроизводства (OA), автоматизация производства, онлайн-образование, картография и т. д. Однако OCR всё ещё остаётся сложной задачей из-за разнообразия внешнего вида текста и требований к вычислительной эффективности.

В этой статье мы предлагаем практическую ультралёгкую систему OCR под названием PP-OCR. Общий размер модели PP-OCR составляет всего 3,5 М для распознавания 6622 китайских иероглифов и 2,8 М для распознавания 63 буквенно-цифровых символов соответственно. Мы представляем набор стратегий для улучшения способности модели или уменьшения её размера. Также представлены соответствующие эксперименты по удалению частей модели с реальными данными.

Кроме того, выпущено несколько предварительно обученных моделей для распознавания китайского и английского языков, включая детектор текста (используется 97 тыс. изображений), классификатор направления (используется 600 тыс. изображений) и распознаватель текста (используется 17,9 млн изображений).

Помимо этого, предложенная система PP-OCR также проверена в задачах распознавания других языков, таких как французский, корейский, японский и немецкий. Все упомянутые выше модели открыты для использования, а коды доступны в репозитории GitHub по указанному URL. Оптическое распознавание символов (OCR): модели и результаты

Способность модели или уменьшение размера модели. Также представлены соответствующие эксперименты по удалению элементов с реальными данными.

В то же время выпущено несколько предварительно обученных моделей для распознавания китайского и английского языков, включая детектор текста (использовано 97 тысяч изображений), классификатор направления (использовано 600 тысяч изображений) и распознаватель текста (использовано 17,9 млн изображений).

Кроме того, предложенное PP-OCR также проверено в нескольких других задачах распознавания языка, включая французский, корейский, японский и немецкий. Все вышеупомянутые модели имеют открытый исходный код, а коды доступны в репозитории GitHub, то есть по этому URL-адресу.

Быстрое начало

ch_PP-OCRv2_det.

Оптическое распознавание символов (OCR) широко используется в различных сценариях применения. Разработка системы OCR всё ещё является сложной задачей. В предыдущей работе мы предложили практическую сверхлёгкую систему OCR (PP-OCR), чтобы сбалансировать точность и эффективность. Чтобы повысить точность PP-OCR и сохранить высокую эффективность, в этой статье мы предлагаем более надёжную систему OCR, то есть PP-OCRv2. Мы представляем набор приёмов для обучения лучшего детектора текста и лучшего распознавателя текста, которые включают совместное взаимное обучение (CML), CopyPaste, лёгкую сеть CPU (LCNet), унифицированное глубокое взаимное обучение (U-DML) и улучшенную потерю CTCLoss. Эксперименты на реальных данных показывают, что точность PP-OCRv2 на 7 % выше, чем у PP-OCR при тех же затратах на вывод. Она также сопоставима с серверными моделями PP-OCR, использующими ResNet в качестве основы. Все упомянутые выше модели имеют открытый исходный код, и код доступен в репозитории GitHub PaddleOCR на базе PaddlePaddle.

Быстрое начало.

ch_PP-OCRv2_det_PACT.

То же, что и в пункте 13.

ch_PP-OCRv2_det_KL.

То же, что и в пунктах 13 и 14. Системы оптического распознавания символов (OCR) широко используются в различных сценариях применения. Разработка системы OCR по-прежнему является сложной задачей. В предыдущей работе мы предложили практичную сверхлёгкую систему OCR (PP-OCR), чтобы сбалансировать точность и эффективность.

Чтобы повысить точность PP-OCR и сохранить высокую эффективность, в этой статье мы предлагаем более надёжную систему OCR, то есть PP-OCRv2. Мы представляем набор приёмов для обучения лучшего детектора текста и лучшего распознавателя текста, которые включают совместное взаимное обучение (CML), CopyPaste, лёгкую сеть на центральном процессоре (LCNet), унифицированное глубокое взаимное обучение (U-DML) и улучшенную потерю CTC. Эксперименты на реальных данных показывают, что точность PP-OCRv2 на 7% выше, чем у PP-OCR при тех же затратах на вывод. Она также сопоставима с серверными моделями PP-OCR, использующими ResNet в качестве основы. Все упомянутые модели имеют открытый исходный код, а код доступен в репозитории GitHub PaddleOCR на основе PaddlePaddle. Быстрое начало

ch_PP-OCRv2_rec_KL

PP-OCRv2: Набор хитростей для сверхлёгкой системы оптического распознавания символов (OCR)

Системы оптического распознавания символов (Optical Character Recognition, OCR) широко используются в различных сценариях применения. Разработка системы OCR по-прежнему является сложной задачей. В предыдущей работе мы предложили практическую сверхлёгкую систему OCR (PP-OCR), чтобы сбалансировать точность и эффективность. Чтобы повысить точность PP-OCR и сохранить высокую эффективность, в этой статье мы предлагаем более надёжную систему OCR, то есть PP-OCRv2. Мы представляем набор хитростей для обучения лучшего детектора текста и лучшего распознавателя текста, которые включают совместное взаимное обучение (Collaborative Mutual Learning, CML), CopyPaste, лёгкую сеть CPU (Lightweight CPUNetwork, LCNet), унифицированное глубокое взаимное обучение (Unified-Deep Mutual Learning, U-DML) и улучшенную потерю CTCLoss. Эксперименты на реальных данных показывают, что точность PP-OCRv2 на 7% выше, чем у PP-OCR при тех же затратах на вывод. Она также сопоставима с серверными моделями PP-OCR, использующими ResNet в качестве основы. Все упомянутые модели имеют открытый исходный код, а код доступен в репозитории GitHub PaddleOCR на платформе PaddlePaddle.

ch_PP-OCRv2

PP-OCRv2: Набор хитростей для ультралёгкой системы оптического распознавания символов

Системы оптического распознавания символов (OCR) широко используются в различных сценариях применения. Разработка системы OCR по-прежнему является сложной задачей. В предыдущей работе мы предложили практическую ультралёгкую систему OCR (PP-OCR), чтобы сбалансировать точность против эффективности. Чтобы улучшить точность PP-OCR и сохранить высокую эффективность, в этой статье мы предлагаем более надежную систему OCR, т. е. PP-OCRv2. Мы представляем набор уловок для обучения лучшему детектору текста и лучшему распознавателю текста, которые включают Collaborative Mutual Learning (CML), CopyPaste, Lightweight CPUNetwork (LCNet), Unified-Deep Mutual Learning (U-DML) и Enhanced CTCLoss. Эксперименты с реальными данными показывают, что точность PP-OCRv2 на 7 % выше, чем PP-OCR при той же стоимости вывода. Она также сравнима с серверными моделями PP-OCR, которые используют ResNet в качестве основы. Все вышеупомянутые модели имеют открытый исходный код, и код доступен в репозитории GitHub PaddleOCR, который работает на PaddlePaddle.

det_mv3_db_v2.0

Обнаружение текста сцены в реальном времени с дифференцируемой бинаризацией

В последнее время методы, основанные на сегментации, довольно популярны при обнаружении текста сцены, поскольку результаты сегментации могут более точно описывать текст сцены различной формы, такой как изогнутый текст. Однако постобработка бинаризации необходима для методов обнаружения, основанных на сегментации, которая преобразует вероятностные карты, созданные методом сегментации, в ограничивающие рамки/области текста. В этой статье мы представляем модуль под названием Differentiable Binarization (DB), который может выполнять процесс бинаризации в сети сегментации. Оптимизированный вместе с модулем DB, сеть сегментации может адаптивно устанавливать пороги для бинаризации, что не только упрощает постобработку, но и улучшает... Быстродействие обнаружения текста

На основе простой сети сегментации мы проверяем улучшение производительности DB на пяти эталонных наборах данных, которые последовательно достигают передовых результатов как с точки зрения точности обнаружения, так и скорости. В частности, при облегчённой структуре улучшения производительности от DB значительны, что позволяет нам искать идеальный баланс между точностью обнаружения и эффективностью.

В частности, с основой ResNet-18 наш детектор достигает показателя F-меры 82,8, работая со скоростью 62 FPS на наборе данных MSRA-TD500. Код доступен по адресу: этот URL https.

21. det_r50_vd_db_v2.0

Обнаружение текста в реальном времени с дифференцируемой бинаризацией.

Недавно методы, основанные на сегментации, стали довольно популярными в обнаружении текста сцены, поскольку результаты сегментации могут более точно описывать текст сцены различных форм, таких как изогнутый текст. Однако постобработка бинаризации необходима для основанного на сегментации обнаружения, которое преобразует карты вероятности, созданные методом сегментации, в ограничивающие рамки/области текста.

В этой статье мы предлагаем модуль под названием «Дифференцируемая бинаризация» (DB), который может выполнять процесс бинаризации в сети сегментации. Оптимизированный вместе с модулем DB, сеть сегментации может адаптивно устанавливать пороги для бинаризации, что не только упрощает постобработку, но и повышает эффективность обнаружения текста. На основе простой сети сегментации мы проверяем улучшения производительности DB на пяти эталонных наборах данных, которые последовательно достигают передовых результатов с точки зрения как точности обнаружения, так и скорости.

22. det_mv3_east_v2.0

EAST: эффективный и точный детектор текста сцены.

Предыдущие подходы к обнаружению текста сцены уже достигли многообещающих результатов в различных тестах. Тем не менее они обычно терпят неудачу при работе со сложными сценариями, даже когда оснащены моделями глубоких нейронных сетей, потому что общая производительность определяется взаимодействием нескольких этапов и компонентов в конвейерах.

В этой работе мы предлагаем простой, но мощный конвейер, который обеспечивает быстрое и точное обнаружение текста в естественных сценах. Конвейер напрямую предсказывает слова или текстовые строки произвольных ориентаций и четырёхугольных форм на полных изображениях, устраняя ненужные промежуточные шаги (например, агрегацию кандидатов и разделение слов), с помощью одной нейронной сети. Простота нашего конвейера позволяет сосредоточить усилия на разработке функций потерь и архитектуры нейронной сети. Текст запроса:

icdar2015 / hmean / 8 0.03% <a href="https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_overview_en.md">快速开始</a> 23 det_r50_vd_east_v2.0 <a href="https://paperswithcode.com/paper/east-an-efficient-and-accurate-scene-text">EAST: an efficient and accurate scene text detector</a> <details> <summary>Abstract</summary> <div>Previous approaches for scene text detection have already achieved promising performances across various benchmarks. However, they usually fall short when dealing with challenging scenarios, even when equipped with deep neural network models, because the overall performance is determined by the interplay of multiple stages and components in the pipelines. In this work, we propose a simple yet powerful pipeline that yields fast and accurate text detection in natural scenes. The pipeline directly predicts words or text lines of arbitrary orientations and quadrilateral shapes in full images, eliminating unnecessary intermediate steps (e.g., candidate aggregation and word partitioning), with a single neural network. The simplicity of our pipeline allows concentrating efforts on designing loss functions and neural network architecture. Experiments on standard datasets including ICDAR 2015, COCO-Text and MSRA-TD500 demonstrate that the proposed algorithm significantly outperforms state-of-the-art methods in terms of both accuracy and efficiency. On the ICDAR 2015 dataset, the proposed algorithm achieves an F-score of 0.7820 at 13.2fps at 720p resolution.</div> </details> icdar2015 / hmean / 8 6.25% <a href="https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_overview_en.md">快速开始</a>

Перевод текста запроса на русский язык:

ICDAR2015 / Hmean / 8 0,03 % <а href="https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_ru/algorithm_overview_ru.md">Быстрый старт</а> 23 Det_R50_VD_East_V2.0 EAST: эффективный и точный детектор текста в сценах <а href="https://paperswithcode.com/paper/east-an-efficient-and-accurate-scene-text">Эффективный и точный детектор текста в сценах EAST</а> <подробности> <резюме>Аннотация</резюме> <div>Предыдущие подходы к обнаружению текста в сценах уже показали многообещающие результаты на различных бенчмарках. Однако они обычно не справляются с трудными сценариями, даже если оснащены моделями глубоких нейронных сетей, поскольку общая производительность определяется взаимодействием нескольких этапов и компонентов в конвейерах. В этой работе мы предлагаем простой, но мощный конвейер, который обеспечивает быстрое и точное обнаружение текста в естественных сценах. Конвейер напрямую предсказывает слова или текстовые строки произвольной ориентации и четырёхугольной формы на полных изображениях, исключая ненужные промежуточные шаги (например, агрегацию кандидатов и разбиение слов) с помощью одной нейронной сети. Простота нашего конвейера позволяет сконцентрировать усилия на разработке функций потерь и архитектуры нейронной сети. Эксперименты на стандартных наборах данных, включая ICDAR 2015, COCO-Text и MSRA-TD500, показывают, что предложенный алгоритм значительно превосходит современные методы как по точности, так и по эффективности. На наборе данных ICDAR 2015 предложенный алгоритм достигает показателя F-меры 0,7820 при частоте кадров 13,2 кадра в секунду при разрешении 720 пикселей.</div> </подробности> ICDAR2015 / Hmean / 8 6,25 % <а href="https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_ru/algorithm_overview_ru.md">Быстрый старт</a> **За последние годы это стало сложной задачей.** В этой статье мы предлагаем новый детектор текста на основе сегментации, а именно SAST, который использует многозадачное обучение с учётом контекста на основе полностью свёрточной сети (FCN) для изучения различных геометрических свойств для реконструкции полигонального представления текстовых областей.

Учитывая последовательные характеристики текста, вводится блок контекстного внимания для захвата дальних зависимостей пиксельной информации для получения более надёжной сегментации. В постобработке предлагается метод назначения точек квадратам для кластеризации пикселей в текстовые экземпляры путём объединения как высокоуровневых объектных знаний, так и низкоуровневой пиксельной информации за один проход. Более того, предложенные геометрические свойства позволяют гораздо эффективнее извлекать полигональное представление текста произвольной формы.

Эксперименты на нескольких бенчмарках, включая ICDAR2015, ICDAR2017-MLT, SCUT-CTW1500 и Total-Text, показывают, что SAST достигает лучшей или сравнимой производительности с точки зрения точности. Кроме того, предлагаемый алгоритм работает со скоростью 27,63 FPS на SCUT-CTW1500 с Hmean 81,0% на одной графической карте NVIDIA Titan Xp, превосходя большинство существующих методов на основе сегментации. Алгоритмы требуют четырёхугольной ограничивающей рамки, которая неточно определяет расположение текстов произвольной формы. С другой стороны, два текстовых экземпляра, расположенных близко друг к другу, могут привести к ложному обнаружению, которое охватывает оба экземпляра. Традиционно подход, основанный на сегментации, может решить первую проблему, но обычно не справляется со второй задачей.

В этой статье мы предлагаем новую сеть Progressive Scale Expansion Network (PSENet), которая может точно обнаруживать текстовые экземпляры произвольной формы. Более конкретно, PSENet генерирует ядра разного масштаба для каждого текстового экземпляра и постепенно расширяет ядро минимального масштаба до полного контура текстового экземпляра. Благодаря тому, что между минимальными масштабными ядрами есть большие геометрические поля, наш метод эффективно разделяет близкие текстовые экземпляры, облегчая использование методов, основанных на сегментации, для обнаружения текстов произвольной формы.

Обширные эксперименты на CTW1500, Total-Text, ICDAR 2015 и ICDAR 2017 MLT подтверждают эффективность PSENet. В частности, на CTW1500 — наборе данных, полном длинных кривых текстов, — PSENet достигает показателя F-меры 74,3% при 27 FPS, а наша лучшая F-мера (82,2%) превосходит современные алгоритмы на 6,6%. Абстракт

В последние годы было представлено много новых предложений для моделей распознавания текста в сценах (STR). Хотя каждая из них претендует на то, что она раздвинула границы технологии, в этой области в значительной степени отсутствует целостное и справедливое сравнение из-за непоследовательного выбора наборов данных для обучения и оценки. В этой статье мы рассматриваем эту проблему с тремя основными вкладами.

Во-первых, мы исследуем несоответствия между наборами данных для обучения и оценки, а также результаты разрыва в производительности из-за несоответствий. Во-вторых, мы представляем унифицированную четырёхэтапную структуру STR, которая подходит для большинства существующих моделей STR. Использование этой структуры позволяет провести обширную оценку ранее предложенных модулей STR и обнаружить ранее неизученные комбинации модулей.

В-третьих, мы анализируем вклад каждого модуля в производительность с точки зрения точности, скорости и требований к памяти при одном согласованном наборе наборов данных для обучения и оценки. Такие анализы устраняют препятствия для текущих сравнений, чтобы понять прирост производительности существующих модулей. Распознавание низкокачественных текстовых сцен

Семантическая информация используется как в модуле кодировщика для контроля, так и в модуле декодера для инициализации. В частности, в предложенную структуру интегрирован современный метод ASTER в качестве примера. Обширные эксперименты показывают, что предложенная структура более устойчива к текстовым изображениям низкого качества и достигает современных результатов на нескольких эталонных наборах данных.

IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE / avg_acc / 85,2%

Быстрое начало

https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_overview_en.md

40

en_server_pgnetA

PGNet: Распознавание текста произвольной формы в реальном времени с помощью точечной собирающей сети

Чтение текста произвольной формы привлекает всё больше внимания исследователей. Однако существующие средства распознавания текста в основном построены на двухэтапных фреймворках или методах, основанных на символах, которые страдают от подавления не-максимумов (NMS), операций с областями интереса (RoI) или аннотаций на уровне символов. В этой статье, чтобы решить вышеуказанные проблемы, мы предлагаем новую полностью свёрточную точечную собирающую сеть (PGNet) для чтения текста произвольной формы в режиме реального времени. PGNet — это средство обнаружения текста одним снимком, где карта классификации символов на уровне пикселей изучается с использованием предложенной потери PG-CTC, избегая использования аннотаций на уровне символов. С помощью декодера PG-CTC мы собираем векторы классификации символов высокого уровня из двумерного пространства и декодируем их в текстовые символы без участия NMS и операций RoI, что гарантирует высокую эффективность. Кроме того, учитывая связи между каждым символом и его соседями, предлагается модуль уточнения графа (GRM) для оптимизации грубого распознавания и улучшения производительности сквозного процесса. Эксперименты доказывают, что предлагаемый метод достигает конкурентоспособной точности, одновременно значительно улучшая скорость работы. В частности, на Total-Text он работает со скоростью 46,7 FPS, значительно опережая предыдущие средства обнаружения.

total-text / e2e_f_score / 60,03%

Быстрое начало

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.1/doc/doc_en/pgnet_en.md

41

layoutxlm_ser

LayoutParser: унифицированный инструментарий для анализа изображений документов на основе глубокого обучения

Последние достижения в анализе изображений документов (DIA) были в первую очередь обусловлены применением нейронных сетей. В идеале результаты исследований можно было бы легко внедрить в производство и расширить для дальнейшего изучения. Однако различные факторы, такие как плохо организованные кодовые базы и сложные конфигурации моделей, усложняют лёгкое повторное использование важных инноваций широкой аудиторией. Хотя предпринимались постоянные усилия по улучшению возможности повторного использования и упрощению разработки моделей глубокого обучения (DL) в таких дисциплинах, как обработка естественного языка и компьютерное зрение, ни одна из них не оптимизирована для задач в области DIA. Это представляет собой серьёзный пробел в существующем инструментарии, поскольку DIA занимает центральное место в академических исследованиях в широком спектре дисциплин социальных наук и гуманитарных наук. В данной статье представлен layoutxlm, библиотека с открытым исходным кодом для оптимизации использования DL в исследованиях и приложениях DIA. Основная библиотека layoutxlm поставляется с набором простых и интуитивно понятных интерфейсов для применения и настройки моделей DL для обнаружения макета, распознавания символов и многих других задач обработки документов. Для обеспечения расширяемости layoutxlm также включает платформу сообщества для обмена как предварительно обученными моделями, так и полными конвейерами оцифровки документов. Мы Продемонстрируйте, что LayoutParser полезен как для облегчённых, так и для масштабных конвейеров оцифровки в реальных сценариях использования. Библиотека доступна публично по адресу https://layout-parser.github.io/.

PubLayNet / mAP / 93.6%.

Быстрое начало.

Fourier Contour Embedding for Arbitrary-Shaped Text Detection.

Одна из основных проблем обнаружения текста произвольной формы заключается в разработке хорошего представления текстовых экземпляров, которое позволяет сетям изучать разнообразные геометрические отклонения текста. Большинство существующих методов моделируют текстовые экземпляры в пространственной области изображения с помощью масок или последовательностей контурных точек в декартовой или полярной системе координат. Однако представление маски может привести к дорогостоящей постобработке, в то время как представление последовательности точек может иметь ограниченную способность моделировать тексты с сильно изогнутыми формами. Чтобы решить эти проблемы, мы моделируем текстовые экземпляры в частотной области и предлагаем новый метод Fourier Contour Embedding (FCE) для представления контуров текста произвольной формы в виде компактных сигнатур. Мы также строим FCENet с базовой сетью, пирамидой признаков (FPN) и простой постобработкой с обратным преобразованием Фурье (IFT) и подавлением немаксимумов (NMS). В отличие от предыдущих методов, FCENet сначала предсказывает компактные сигнатуры текста в частотной области, а затем реконструирует контуры текста с помощью IFT и NMS во время тестирования. Обширные эксперименты показывают, что FCE является точным и устойчивым методом для подгонки контуров сценарного текста даже с сильно изогнутыми формами, а также подтверждают эффективность и хорошую обобщающую способность FCENet для обнаружения текста произвольной формы. Кроме того, экспериментальные результаты показывают, что наш FCENet превосходит современные методы на CTW1500 и Total-Text, особенно на сложных подмножествах текстов с сильно изогнутой формой.

CTW1500 / hmean / 85.27%.

Быстрое начало.

PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System.

Технология оптического распознавания символов (OCR) широко используется в различных областях, как показано на рисунке 1. Разработка практичной системы OCR остаётся значимой, но сложной задачей. В предыдущей работе, учитывая эффективность и точность, мы предложили практичную систему ультра лёгкого OCR (PP-OCR), а также оптимизированную версию PP-OCRv2. Для дальнейшего улучшения производительности PP-OCRv2 в этой статье предлагается более надёжная система OCR PP-OCRv3. PP-OCRv3 модернизирует модель детектора текста и модель распознавания текста по 9 аспектам на основе PP-OCRv2. Что касается детектора текста, мы представляем модуль PAN с большим рецептивным полем под названием LK-PAN, модуль FPN с остаточным механизмом внимания под названием RSE-FPN и стратегию дистилляции DML. Для распознавателя текста базовая модель заменяется с CRNN на SVTR, и мы представляем лёгкую сеть распознавания текста SVTR LCNet, управляемое обучение CTC с помощью внимания, стратегию увеличения данных TextConAug, улучшенную предварительно обученную модель с помощью самоконтролируемого TextRotNet, UDML и UIM для ускорения модели и улучшения эффекта. Эксперименты на реальных данных показывают, что hmean PP-OCRv3 на 5% выше, чем у PP-OCRv2 при сопоставимой скорости вывода. Все упомянутые модели доступны в открытом доступе, а код можно найти в репозитории GitHub PaddleOCR, который работает на базе PaddlePaddle.

—

Быстрое начало.

PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System

Технология оптического распознавания символов (OCR) широко используется в различных областях, как показано на рисунке 1. Разработка практичной системы OCR по-прежнему является важной, но сложной задачей. В предыдущей работе, учитывая эффективность и точность, мы предложили практичную сверхлёгкую систему OCR (PP-OCR), а также оптимизированную версию PP-OCRv2.

Чтобы ещё больше улучшить производительность PP-OCRv2, в этой статье предлагается более надёжная система OCR PP-OCRv3. PP-OCRv3 улучшает модель обнаружения текста и модель распознавания текста по 9 аспектам на основе PP-OCRv2. Для детектора текста мы представляем модуль PAN с большим рецептивным полем под названием LK-PAN, модуль FPN с механизмом остаточного внимания под названием RSE-FPN и стратегию дистилляции DML.

Для распознавателя текста базовая модель заменена с CRNN на SVTR, и мы представляем лёгкую сеть распознавания текста SVTR LCNet, управляемое обучение CTC с помощью внимания, стратегию увеличения данных TextConAug, улучшенную предварительно обученную модель с помощью самоконтролируемого TextRotNet, UDML и UIM для ускорения модели и улучшения эффекта. Эксперименты на реальных данных показывают, что hmean PP-OCRv3 на 5% выше, чем у PP-OCRv2 при сопоставимой скорости вывода. Все упомянутые выше модели имеют открытый исходный код, а код доступен в репозитории GitHub PaddleOCR, который работает на PaddlePaddle. В данном тексте рассматриваются различные методы и подходы к обнаружению и распознаванию текста в естественных сценах (scene text detection и scene text recognition).

В частности, описывается метод, основанный на использовании графовой сети для глубокого анализа отношений между компонентами и их соседями. Эксперименты с общедоступными наборами данных демонстрируют высокую эффективность этого метода.

Также предлагается модуль Differentiable Binarization (DB), который интегрирует процесс бинаризации, один из наиболее важных этапов процедуры постобработки, в сеть сегментации. Это позволяет повысить точность обнаружения текста с помощью простого конвейера. Кроме того, предлагается эффективный модуль Adaptive Scale Fusion (ASF) для улучшения устойчивости к масштабу путём адаптивного объединения признаков разных масштабов.

Наконец, рассматривается метод ViTSTR, который представляет собой STR с простой одностадийной архитектурой модели, построенной на вычислительно эффективном и экономном по параметрам визуальном трансформаторе (ViT). Этот метод обеспечивает высокую точность распознавания текста при одновременном повышении скорости и эффективности вычислений. 53. ABINet

Быстрое начало

Аннотация

Лингвистические знания очень полезны для распознавания текста в сценах. Однако вопрос о том, как эффективно моделировать лингвистические правила в глубоких нейронных сетях «от конца до конца», остаётся предметом исследований. В этой статье мы утверждаем, что ограниченная способность языковых моделей обусловлена: 1) неявным моделированием языка; 2) однонаправленным представлением признаков; и 3) языковой моделью с зашумлённым входом. Соответственно, мы предлагаем автономную, двунаправленную и итеративную модель ABINet для распознавания текста на сцене.

Во-первых, автономность предполагает блокировку потока градиента между моделями зрения и языка, чтобы обеспечить явное моделирование языка. Во-вторых, предлагается новая двунаправленная сеть закрытия (BCN) в качестве языковой модели, основанная на двунаправленном представлении признаков. В-третьих, мы предлагаем метод итеративного исправления для языковой модели, который может эффективно смягчить влияние зашумлённого входа. Кроме того, на основе ансамбля итеративных предсказаний мы предлагаем метод самообучения, который позволяет эффективно учиться на немаркированных изображениях. Обширные эксперименты показывают, что ABINet превосходит другие модели на низкокачественных изображениях и достигает лучших результатов на нескольких основных тестах. Кроме того, ABINet, обученный с помощью ансамблевого самообучения, демонстрирует многообещающее улучшение в достижении человеческого уровня распознавания.

acc = 90,75 %

Быстрое начало

54. VisionLAN

Быстрое начало

Аннотация В этой статье мы отказываемся от доминирующей сложной языковой модели и переосмысливаем процесс изучения языка при распознавании текста на сцене. В отличие от предыдущих методов, рассматривающих визуальную и лингвистическую информацию в двух отдельных структурах, мы предлагаем сеть визуального моделирования языка (VisionLAN), которая рассматривает визуальную и языковую информацию как единое целое, непосредственно наделяя модель видения языковыми возможностями.

Специально для этого мы представляем распознавание текста с использованием карт характеристик с посимвольным перекрытием на этапе обучения. Такая операция направляет модель зрения использовать не только визуальные текстуры символов, но и лингвистическую информацию из визуального контекста для распознавания, когда визуальные сигналы запутаны (например, окклюзия, шум и т. д.). Поскольку лингвистическая информация приобретается вместе с визуальными признаками без необходимости в дополнительной языковой модели, VisionLAN значительно повышает скорость на 39 % и адаптивно учитывает лингвистическую информацию для улучшения визуальных признаков для точного распознавания. Кроме того, предложен набор данных Occlusion Scene Text (OST) для оценки производительности в случае отсутствия визуальных сигналов по символам. Результаты, полученные на нескольких тестах, доказывают нашу эффективность.

Acc = 90,30 %

Быстрое начало

55. SPIN

SPIN: Структура-сохраняющая внутренняя офсетная сеть для распознавания текста сцены. Абстракт

Появление произвольного текста в задачах распознавания текста сцены представляет собой серьёзную проблему. Существующие работы в основном решают эту проблему с учётом искажения формы, включая перспективные искажения, кривизну линий или другие вариации стиля. Поэтому широко изучаются методы, основанные на пространственных преобразователях. Однако хроматическим трудностям в сложных сценах не уделялось много внимания.

В этой работе мы представляем новый обучаемый модуль, не связанный с геометрией, — сеть внутреннего смещения структуры (SPIN), которая позволяет манипулировать цветом исходных данных внутри сети. Этот дифференцируемый модуль можно вставить перед любой архитектурой распознавания, чтобы облегчить последующие задачи, давая нейронным сетям возможность активно преобразовывать входную интенсивность, а не существующую пространственную ректификацию. Он также может служить дополнительным модулем к известным пространственным преобразованиям и работать как независимо, так и совместно с ними. Обширные эксперименты показывают, что использование SPIN приводит к значительному улучшению результатов распознавания текста по сравнению с современными достижениями.

acc = 90,00 %

Быстрый старт

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_en/algorithm_rec_spin_en.md

56

RobustScanner

Абстракт

Основанная на внимании структура кодировщик-декодер недавно достигла впечатляющих результатов для распознавания текста сцены, и появилось множество вариантов с улучшениями качества распознавания. Однако он плохо работает с бесконтекстными текстами (например, случайными последовательностями символов), что неприемлемо в большинстве реальных сценариев применения.

В данной статье мы сначала глубоко исследуем процесс декодирования декодера. Мы эмпирически обнаруживаем, что репрезентативный декодер последовательности на уровне символов использует не только контекстную информацию, но и позиционную информацию. Контекстная информация, на которую сильно полагаются существующие подходы, вызывает проблему смещения внимания. Чтобы подавить такой побочный эффект, мы предлагаем новую ветвь усиления позиции и динамически объединяем её выходные данные с выходными данными модуля внимания декодера для распознавания текста сцены.

Теоретически наш предложенный метод, получивший название RobustScanner, декодирует отдельные символы с динамическим соотношением между контекстом и позиционными подсказками и использует больше позиционных, когда декодирующие последовательности имеют скудный контекст, и, таким образом, является надёжным и практичным. Эмпирически он достиг новых результатов уровня техники на популярных регулярных и нерегулярных тестах распознавания текста, при этом без значительного снижения производительности на тестах без контекста, подтверждая его надёжность как в контекстных, так и в бесконтекстных сценариях применения.

acc = 87,77 %

Быстрый старт

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_en/algorithm_rec_robustscanner_en.md

57

RFL

Абстракт

Распознавание текста — популярная тема из-за широкого спектра приложений. В этой работе мы исследуем неявную задачу — подсчёт символов в традиционном тексте. Распознавание без дополнительных трудозатрат на аннотацию.

Неявная задача выступает в качестве вспомогательной ветви для дополнения последовательного распознавания. Мы разрабатываем двухветвевую систему взаимного обучения признакам, чтобы адекватно использовать признаки обеих задач. Благодаря использованию взаимодополняющего эффекта между явными и неявными задачами, надёжность признаков повышается. Обширные эксперименты на 7 контрольных показателях демонстрируют преимущества предложенных методов как в распознавании текста, так и в новых задачах подсчёта символов. Кроме того, удобно и эффективно оснащать переменными сетями и задачами. Мы предлагаем множество исследований по удалению элементов с целью более глубокого понимания задач.

ТаблицаМастер

В этой статье представлено наше решение для конкурса ICDAR 2021 по задаче разбора научной литературы: преобразование таблиц в HTML. В нашем методе мы разделяем задачу распознавания содержимого таблицы на четыре подзадачи: распознавание структуры таблицы, обнаружение текстовых строк, распознавание текстовых строк и назначение блоков. Наш алгоритм распознавания структуры таблицы настроен на основе МАСТЕР [1], надёжного алгоритма распознавания текста на изображениях. PSENet [2] используется для обнаружения каждой текстовой строки на изображении таблицы. Для распознавания текстовых строк наша модель также построена на МАСТЕР. Наконец, на этапе назначения блоков мы связываем текстовые блоки, обнаруженные PSENet, со структурным элементом, восстановленным предсказанием структуры таблицы, и заполняем распознанное содержимое текстовой строки в соответствующий элемент. Наш предложенный метод достигает показателя TEDS 96,84% на 9115 образцах проверки на этапе разработки и показателя TEDS 96,32% на 9064 образцах на заключительном этапе оценки.

PGNet

Чтение текста произвольной формы привлекает всё больше внимания исследователей. Однако существующие средства обнаружения текста в основном построены на двухэтапных структурах или методах, основанных на символах, которые страдают либо от подавления не-максимумов (NMS), операций с областями интереса (RoI), либо от аннотаций на уровне символов. В этой статье, чтобы решить вышеуказанные проблемы, мы предлагаем новую полностью свёрточную сеть сбора точек (PGNet) для чтения текста произвольной формы в реальном времени. PGNet — это средство обнаружения текста одним кадром, где карта классификации символов на уровне пикселей изучается с помощью предложенной потери PG-CTC, избегая использования аннотаций на уровне символов. С помощью декодера PG-CTC мы собираем векторы классификации символов высокого уровня из двумерного пространства и декодируем их в символы текста без участия NMS и операций RoI, что гарантирует высокую эффективность. Кроме того, учитывая отношения между каждым символом и его соседями, предлагается модуль уточнения графа (GRM) для оптимизации грубого распознавания и повышения общей производительности. Эксперименты доказывают, что предложенный метод обеспечивает конкурентоспособную точность, одновременно значительно улучшая скорость работы. В частности, в Total-Text он работает со скоростью 46,7 кадров в секунду, значительно опережая предыдущие средства обнаружения. ### PaddleGAN

№ Модель Название статьи (ссылка) Резюме Набор данных Быстрое начало

1 PP-MSVSR PP-MSVSR: Multi-Stage Video Super-Resolution Abstract: задача видеосверхразрешения (VSR) отличается от задачи сверхразрешения одного изображения (SISR). Ключевым моментом в VSR является полное использование взаимодополняющей информации между кадрами для восстановления последовательности с высоким разрешением. Поскольку изображения из разных кадров имеют разное движение и сцену, точное выравнивание нескольких кадров и эффективное объединение разных кадров всегда было ключевой областью исследований в задачах VSR. В этой статье мы предлагаем многоэтапную глубокую архитектуру VSR под названием PP-MSVSR с модулем локального объединения, вспомогательной потерей и модулем повторного выравнивания для постепенного уточнения улучшенного результата. Vid4

В частности, чтобы усилить объединение функций между кадрами при распространении функций, в первом этапе разработан модуль локального объединения для выполнения локального объединения функций перед распространением функций. Кроме того, мы вводим вспомогательную потерю на втором этапе, чтобы функции, полученные модулем распространения, сохраняли больше связанной информации, подключённой к пространству HR, и вводим модуль повторного выравнивания на третьем этапе, чтобы полностью использовать информацию о функциях предыдущего этапа. Обширные эксперименты подтверждают, что PP-MSVSR достигает многообещающей производительности наборов данных Vid4, достигая PSNR 28,13 дБ только с 1,45 млн параметров. А PP-MSVSR-L превосходит все существующие методы. Исходное изображение трансформируется из эталонного изображения. С помощью матриц макияжа и исходного изображения применяется сеть Makeup Apply для выполнения переноса макияжа. Наш PSGAN не только достигает передовых результатов, даже при наличии больших различий в позе и выражении лица, но также способен выполнять частичный и контролируемый перенос макияжа. Мы также собрали набор данных, содержащий изображения лиц с различными позами и выражениями для оценки.

Wav2Lip — это модель, которая позволяет синхронизировать движение губ с произносимым текстом. В этой работе мы исследуем проблему синхронизации губ говорящего на видео с целевой речью. Текущие работы преуспевают в создании точных движений губ на статическом изображении или видео людей, которые были видны во время обучения. Однако они не могут точно передать движения губ произвольных людей в динамических, неограниченных видеозаписях разговора, что приводит к тому, что значительная часть видео оказывается несинхронной с новым звуком. Мы определяем ключевые причины этого и решаем их, обучаясь на мощном дискриминаторе синхронизации губ. Затем мы предлагаем новые строгие критерии оценки и метрики для точного измерения синхронизации губ в неограниченных видео. Обширные количественные оценки на наших сложных критериях показывают, что точность синхронизации губ видео, созданных нашей моделью Wav2Lip, почти так же хороша, как у реальных синхронизированных видео.

LESRCNN — это лёгкая модель для улучшения качества изображений. Глубокие свёрточные нейронные сети (CNN) с сильными выразительными способностями достигли впечатляющих результатов в улучшении качества одиночных изображений. Однако их чрезмерное количество свёрток и параметров обычно требует высоких вычислительных затрат и большего объёма памяти для обучения модели SR, что ограничивает их применение в SR с устройствами с ограниченными ресурсами в реальном мире. Чтобы решить эти проблемы, мы предлагаем лёгкую улучшенную CNN для SR (LESRCNN) с тремя последовательными субблоками: блоком извлечения и улучшения информации (IEEB), блоком реконструкции (RB) и блоком уточнения информации (IRB). Код LESRCNN доступен по этому URL-адресу https.

DIV2K/pnsr: 30,231 с im: 0,8326

Быстрое начало

7

ESRGAN

Esrgan: Enhanced super-resolution generative adversarial networks

В частности, мы представляем остаточный в остаточном плотном блоке (RRDB) без пакетной нормализации в качестве основного строительного блока сети. Кроме того, мы заимствуем идею из релятивистского GAN, чтобы позволить дискриминатору предсказывать относительную реальность вместо абсолютного значения. Наконец, мы улучшаем перцептивную потерю, используя функции перед активацией, которые могут обеспечить более строгий контроль за яркостью и восстановлением текстуры. Благодаря этим улучшениям предложенный ESRGAN обеспечивает неизменно лучшее визуальное качество с более реалистичными и естественными текстурами, чем SRGAN, и занял первое место в конкурсе PIRM2018-SR. Код доступен по этому адресу https.

DIV2K/pnsr: 26,9013 с sim: 0,7542

Быстрое начало

8

RealSR

Реальное суперразрешение через оценку ядра и инъекцию шума

Чтобы решить эту проблему, мы сосредоточились на разработке новой структуры деградации для реальных изображений путём оценки различных размытых ядер, а также реальных распределений шума. На основе нашей новой структуры деградации мы можем получить изображения с низким разрешением, разделяющие общий домен с реальными изображениями. Затем мы предлагаем модель реального суперразрешения, направленную на лучшее восприятие. Обширные эксперименты на синтетических данных о шуме и реальных изображениях показывают, что наш метод превосходит современные методы, обеспечивая более низкий уровень шума и лучшее визуальное качество. Кроме того, наш метод является победителем конкурса NTIRE 2020 по обоим направлениям реального суперразрешения, значительно опережая других конкурентов с большим отрывом.

DIV2K/pnsr: 26,7306 с im: 0,7512

Быстрое начало

9

StyleGAN2

Анализ и улучшение качества изображения StyleGAN

Архитектура GAN на основе стиля (StyleGAN) даёт лучшие результаты в моделировании изображений на основе данных. Мы раскрываем и анализируем некоторые его характерные особенности. Артефакты — это нежелательные особенности на изображении, которые могут возникать из-за ошибок в процессе обработки или передачи данных. В контексте разработки и тестирования программного обеспечения артефакты могут быть связаны с ошибками в коде, неправильным использованием алгоритмов или другими техническими проблемами.

В тексте говорится о том, что авторы предлагают внести изменения в архитектуру модели и методы обучения для решения проблемы артефактов. В частности, они перепроектируют нормализацию генератора, пересматривают прогрессивный рост и вводят регуляризацию генератора для улучшения отображения латентных кодов в изображения. Это позволяет улучшить качество изображений и сделать генератор более устойчивым к инверсии, что позволяет надёжно приписывать сгенерированное изображение конкретной сети.

Также авторы визуализируют, насколько хорошо генератор использует своё выходное разрешение, и выявляют проблему с пропускной способностью, мотивируя себя обучать более крупные модели для дополнительного улучшения качества. В целом, их улучшенная модель переопределяет современное состояние искусства в области моделирования не обусловленных изображений как с точки зрения существующих метрик качества распределения, так и с точки зрения воспринимаемого качества изображения.

Текст про U-GAT-IT

Текст описывает метод для неконтролируемого перевода изображений «изображение в изображение», который включает новый модуль внимания и новую обучаемую функцию нормализации в рамках сквозного подхода. Модуль внимания направляет модель на фокусировку на более важных областях, различающих исходный и целевой домены на основе карты внимания, полученной вспомогательным классификатором.

Модель может переводить как изображения, требующие глобальных изменений, так и изображения, требующие больших изменений формы. Кроме того, новая функция AdaLIN (Adaptive Layer-Instance Normalization) помогает модели с направляемым вниманием гибко контролировать степень изменения формы и текстуры с помощью изученных параметров в зависимости от наборов данных. Экспериментальные результаты показывают превосходство предложенного метода по сравнению с существующими современными моделями с фиксированной архитектурой сети и гиперпараметрами.

Код и наборы данных доступны по указанным ссылкам.

Текст про AnimeGAN2

Преобразование фотографий реальных сцен в аниме-стилизованные изображения является значимой и сложной задачей с точки зрения компьютерного зрения и художественного переноса стиля. В этом исследовании предлагается улучшенная версия AnimeGAN, называемая AnimeGANv2. Она предотвращает генерацию высокочастотных артефактов путём простого изменения нормализации признаков в сети. Кроме того, размер генераторной сети дополнительно уменьшается для более эффективного переноса анимационного стиля. AnimeGANv2, обученный на недавно созданном высококачественном наборе данных, может генерировать анимационные изображения с лучшим визуальным качеством, чем AnimeGAN.

Текст про Photo2Cartoon

К сожалению, без контекста сложно понять, о чём идёт речь в данном отрывке. Текст обрывается на середине предложения. Можно предположить, что здесь описывается ещё один метод или подход к преобразованию фотографий в карикатуры. Нормализация слоя экземпляра для перевода «изображение-в-изображение»

Мы предлагаем новый метод для неконтролируемого перевода «изображение-в-изображение», который включает в себя новый модуль внимания и новую обучаемую функцию нормализации в сквозной манере. Модуль внимания направляет нашу модель на фокусировку на более важных областях, различающих исходный и целевой домены, на основе карты внимания, полученной вспомогательным классификатором. В отличие от предыдущего метода на основе внимания, который не может обрабатывать геометрические изменения между доменами, наша модель может переводить как изображения, требующие целостных изменений, так и изображения, требующие больших изменений формы. Более того, наша новая функция AdaLIN (Adaptive Layer-Instance Normalization) помогает нашей модели, управляемой вниманием, гибко контролировать величину изменения формы и текстуры с помощью параметров, зависящих от наборов данных. Экспериментальные результаты показывают превосходство предложенного метода по сравнению с существующими современными моделями с фиксированной архитектурой сети и гиперпараметрами. Наш код и наборы данных доступны по этим URL-адресам.

DRN: Сети с двойной регрессией для суперразрешения одного изображения

Глубокие нейронные сети демонстрируют многообещающие результаты в области суперразрешения изображений (SR), обучая нелинейную функцию отображения от изображений с низким разрешением (LR) к изображениям с высоким разрешением (HR). Однако существуют два основных ограничения существующих методов SR. Во-первых, обучение функции отображения от LR к HR изображениям обычно является некорректной задачей, поскольку существует бесконечное количество HR изображений, которые могут быть понижены до одного и того же LR изображения. В результате пространство возможных функций может быть чрезвычайно большим, что затрудняет поиск хорошего решения. Во-вторых, парные данные LR-HR могут быть недоступны в реальных приложениях, и часто неизвестен основной метод деградации. Для такого более общего случая существующие модели SR часто сталкиваются с проблемой адаптации и дают плохие результаты. Чтобы решить эти проблемы, мы предлагаем схему двойной регрессии, вводя дополнительное ограничение на данные LR для уменьшения пространства возможных функций. Кроме того, отображение от LR к HR изображениям, мы изучаем дополнительное отображение двойной регрессии, которое оценивает ядро понижающей дискретизации и восстанавливает изображения LR, образуя замкнутый контур для обеспечения дополнительного контроля. Что ещё более важно, поскольку процесс двойной регрессии не зависит от изображений HR, мы можем непосредственно учиться на изображениях LR. В этом смысле мы можем легко адаптировать модели SR к реальным данным, таким как необработанные видеокадры с YouTube. Обширные эксперименты с парными данными обучения и непарными реальными данными демонстрируют наше превосходство над существующими методами.

StarGAN v2: Разнообразный синтез изображений для нескольких доменов

Хорошая модель перевода «изображение в изображение» должна изучать отображение между различными визуальными доменами, удовлетворяя следующим свойствам: 1) разнообразие генерируемых изображений и 2) масштабируемость для множества доменов. Существующие методы решают либо одну из проблем, либо имеют ограниченное разнообразие, либо несколько моделей для всех доменов. Мы предлагаем StarGAN v2, единую структуру, которая решает обе проблемы и показывает значительно улучшенные результаты. Перевод текста:

1. На основе базовых линий. Эксперименты на CelebA-HQ и новом наборе данных с лицами животных (AFHQ) подтверждают наше превосходство с точки зрения визуального качества, разнообразия и масштабируемости. Чтобы лучше оценить модели перевода изображений в изображения, мы выпускаем AFHQ — высококачественные лица животных с большими междоменными и внутридоменными различиями. Код, предварительно обученные модели и набор данных можно найти по этому URL-адресу https.

2. FOM. Модель первого порядка для анимации изображений. Анимация изображений состоит из создания видеоряда таким образом, чтобы объект в исходном изображении анимировался в соответствии с движением ведущего видео. Наша структура решает эту проблему без использования каких-либо аннотаций или предварительной информации о конкретном объекте для анимации. После обучения на наборе видео, изображающих объекты одной категории (например, лица, человеческие тела), наш метод может быть применён к любому объекту этого класса. Для достижения этого мы отделяем информацию о внешнем виде и движении, используя самоуправляемую формулировку. Чтобы поддерживать сложные движения, мы используем представление, состоящее из набора изученных ключевых точек вместе с их локальными аффинными преобразованиями. Генераторная сеть моделирует окклюзии, возникающие во время целевых движений, и объединяет внешний вид, извлечённый из исходного изображения, и движение, полученное из ведущего видео. Наша система лучше всего работает на разнообразных тестах и на множестве категорий объектов.

3. EDVR. Восстановление видео с помощью улучшенных деформируемых свёрточных сетей. Задачи восстановления видео, включая суперразрешение, деблюринг и т. д., привлекают всё большее внимание в сообществе компьютерного зрения. В рамках конкурса NTIRE19 выпущен сложный тест под названием REDS. Этот новый тест бросает вызов существующим методам с двух сторон: (1) как выровнять несколько кадров при больших движениях, и (2) как эффективно объединить разные кадры с разнообразными движениями и размытостью. В этой работе мы предлагаем новую структуру восстановления видео с улучшенными деформируемыми сетями, называемую EDVR, для решения этих проблем. Во-первых, чтобы справиться с большими движениями, мы разрабатываем модуль выравнивания пирамиды, каскадирования и деформирования (PCD), в котором выравнивание кадров выполняется на уровне признаков с использованием деформируемых свёрток от грубого к точному. Во-вторых, мы предлагаем модуль слияния временного и пространственного внимания (TSA), в котором внимание применяется как временно, так и пространственно, чтобы подчеркнуть важные функции для последующего восстановления. Благодаря этим модулям наша EDVR выигрывает чемпионаты и значительно превосходит второе место во всех четырёх треках в конкурсе NTIRE19 по восстановлению и улучшению видео. EDVR также демонстрирует превосходную производительность по сравнению с современными опубликованными методами в области суперразрешения и деблюринга видео.

4. BasicVSR++. Улучшение суперразрешения видео с улучшенной передачей и выравниванием. Подходы к суперразрешению видео (VSR), как правило, имеют больше компонентов, чем... Продемонстрировать, что наш метод может синтезировать высококачественные стилизованные изображения в реальном времени, где целостные стилистические паттерны передаются должным образом.

coco

Быстрый старт

20. DCGAN

В последние годы обучение с учителем с помощью свёрточных сетей (CNN) получило широкое распространение в приложениях компьютерного зрения. В отличие от этого, обучение без учителя с использованием CNN привлекло меньше внимания. В этой работе мы надеемся помочь преодолеть разрыв между успехом CNN для обучения с учителем и обучением без учителя. Мы представляем класс CNN, называемых глубокими свёрточными генеративно-состязательными сетями (DCGAN), которые имеют определённые архитектурные ограничения, и демонстрируем, что они являются сильным кандидатом для обучения без учителя. Обучаясь на различных наборах данных изображений, мы приводим убедительные доказательства того, что наша глубокая свёрточная состязательная пара изучает иерархию представлений от частей объектов до сцен как в генераторе, так и в дискриминаторе. Кроме того, мы используем изученные функции для новых задач — демонстрируя их применимость в качестве общих представлений изображений.

mnist

Быстрый старт

21. CGAN

Генеративно-состязательные сети (GAN) были недавно представлены как новый способ обучения генеративных моделей. В этой работе мы представляем условную версию генеративно-состязательных сетей, которую можно построить, просто подавая данные y, которые мы хотим обусловить, как генератору, так и дискриминатору. Мы показываем, что эта модель может генерировать цифры MNIST, обусловленные метками классов. Мы также иллюстрируем, как эту модель можно использовать для изучения мультимодальной модели, и приводим предварительные примеры применения к маркировке изображений, в которых мы демонстрируем, как этот подход может генерировать описательные теги, не являющиеся частью обучающих меток.

tiny imagenet

Быстрый старт

22. PAN

Эта работа направлена на разработку лёгкой свёрточной нейронной сети для суперразрешения изображений (SR). Имея в виду простоту, мы строим довольно лаконичную и эффективную сеть с недавно предложенной схемой пиксельного внимания. Пиксельное внимание (PA) похоже по формулировке на канальное и пространственное внимание. Разница в том, что PA создаёт 3D карты внимания вместо 1D вектора внимания или 2D карты. Эта схема внимания вводит меньше дополнительных параметров, но даёт лучшие результаты SR. На основе PA мы предлагаем два строительных блока для основной ветви и ветви реконструкции соответственно. Первый — блок SC-PA имеет ту же структуру, что и самокалиброванная свёртка, но с нашим слоем PA. Этот блок намного эффективнее обычных остаточных/плотных блоков благодаря своей двухветвевой архитектуре и схеме внимания. Второй — блок UPA объединяет ближайший соседний апсемплинг, свёртку и слои PA. Он улучшает окончательное качество реконструкции с небольшими затратами на параметры. Наша окончательная модель — PAN может достичь производительности, аналогичной лёгким сетям — SRResNet и CARN. Но только с 272K параметрами (17,92% от SRResNet и 17,09% от CARN). Эффективность каждого предложенного компонента также подтверждается исследованием абляции.

Код доступен по ссылке: https://github.com/zhaohengyuan1/PAN.

DIV2K/PSNR:28.9187 SS IM:0.8176

Быстрое начало

PReNet

Progressive Image Deraining Networks: A Better and Simpler Baseline.

Наряду с улучшением производительности при использовании глубоких сетей их структуры и обучение становятся всё более сложными и разнообразными, что затрудняет анализ вклада различных сетевых модулей при разработке новых сетей для устранения эффекта дождя. Чтобы решить эту проблему, в этой статье предлагается лучшая и более простая базовая сеть для устранения эффекта дождя с учётом архитектуры сети, ввода и вывода, а также функций потерь. В частности, путём многократного развёртывания неглубокого ResNet предлагается прогрессивный ResNet (PRN), чтобы использовать рекурсивные вычисления. Далее вводится слой с обратной связью, чтобы использовать зависимости глубоких признаков на разных этапах, формируя нашу прогрессивную рекуррентную сеть (PReNet). Кроме того, рекурсивное вычисление внутри этапа ResNet может быть использовано в PRN и PReNet, чтобы значительно уменьшить параметры сети с постепенным ухудшением производительности устранения эффекта дождя. Для ввода и вывода сети мы берём как поэтапный результат, так и исходное дождливое изображение в качестве входных данных для каждого ResNet и, наконец, выводим прогноз остаточного изображения. Что касается функций потерь, то для обучения PRN и PReNet достаточно одной MSE или отрицательной потери SSIM. Эксперименты показывают, что PRN и PReNet хорошо работают как с синтетическими, так и с реальными дождливыми изображениями. Учитывая его простоту, эффективность и результативность, наши модели, как ожидается, послужат подходящей основой для будущих исследований по устранению эффекта дождя. Исходный код доступен по адресу: https://github.com/csdwren/PReNet.

RainTrainH/PSNR: 29.50 37 SSIM: 0.899

Быстрое начало

SinGAN

SinGAN: Learning a Generative Model from a Single Natural Image.

Мы представляем SinGAN, безусловную генеративную модель, которую можно изучить на основе одного естественного изображения. Наша модель обучена улавливать внутреннее распределение патчей в изображении и затем способна генерировать высококачественные разнообразные образцы, которые несут тот же визуальный контент, что и изображение. SinGAN содержит пирамиду полностью свёрточных GAN, каждый из которых отвечает за изучение распределения патчей на другом масштабе изображения. Это позволяет генерировать новые образцы произвольного размера и соотношения сторон, которые имеют значительную изменчивость, но сохраняют как глобальную структуру, так и тонкие текстуры обучающего изображения. В отличие от предыдущих схем однократных изображений GAN наш подход не ограничивается текстурными изображениями и не является условным (то есть он генерирует образцы из шума). Пользовательские исследования подтверждают, что сгенерированные образцы обычно ошибочно принимают за реальные изображения. Мы иллюстрируем полезность SinGAN в широком спектре задач манипулирования изображениями.

Визуализация

Быстрое начало

MPRNet

Multi-Stage Progressive Image Restoration.

Задачи восстановления изображений требуют сложного баланса между пространственными деталями и высокоуровневой контекстуализированной информацией при восстановлении изображений. В этой статье мы предлагаем новый синергический дизайн, который может оптимально сбалансировать эти конкурирующие цели. Наше основное предложение заключается... Синтез текстур: улучшение дискриминатора AOT-GAN

В процессе синтеза текстур мы улучшаем дискриминатор AOT-GAN, обучая его специализированной задаче предсказания маски. Такая цель обучения заставляет дискриминатор различать детальные характеристики реальных и синтезированных фрагментов, что, в свою очередь, помогает генератору создавать чёткие текстуры.

Обширные сравнения на Places2, самом сложном бенчмарке с 1,8 миллиона изображений высокого разрешения из 365 сложных сцен, показывают, что наша модель значительно превосходит современные аналоги по показателю FID с улучшением на 38,60%. Исследование с участием более чем 30 участников дополнительно подтверждает превосходство AOT-GAN.

Мы также оцениваем предложенный AOT-GAN в практических приложениях, таких как удаление логотипов, редактирование лиц и удаление объектов. Результаты показывают, что наша модель обеспечивает многообещающие результаты в реальном мире. Мы выпускаем код и модели на сайте https://github.com/researchmm/AOT-GAN-for-Inpainting.

Places365 верификационный набор PSNR = 26.04

Быстрый старт

Ссылка на документацию

GFPGan: генеративный лицевой приоритет для восстановления лица вслепую

Восстановление лица вслепую обычно опирается на лицевые приоритеты, такие как геометрия лица или эталонный приоритет, чтобы восстановить реалистичные и достоверные детали. Однако очень низкокачественные входные данные не могут обеспечить точную геометрическую информацию, а высококачественные эталоны недоступны, ограничивая применимость в реальных сценариях. В этой работе мы предлагаем GFP-GAN, который использует богатые и разнообразные приоритеты, заключённые в предварительно обученном лицевом GAN, для восстановления лиц вслепую.

Этот генеративный лицевой приоритет (GFP) интегрируется в процесс восстановления лица через новые слои пространственного преобразования с разделением каналов, которые позволяют нашему методу достичь хорошего баланса между реальностью и точностью. Благодаря мощному генеративному лицевому приоритету и тщательному дизайну наш GFP-GAN может совместно восстанавливать детали лица и улучшать цвета всего за один проход вперёд, в то время как методы инверсии GAN требуют дорогостоящей оптимизации под конкретное изображение при выводе. Обширные эксперименты показывают, что наш метод превосходит предыдущие работы как на синтетических, так и на реальных наборах данных.

CELEBA-HQ тестовый набор LPIPS = 0.38 FID = 36.8

Быстрый старт

Ссылка на документацию

InvDN: обратимая сеть шумоподавления — лёгкое решение для реального удаления шума

Обратимые сети имеют различные преимущества для шумоподавления изображений, поскольку они лёгкие, сохраняют информацию и экономят память во время обратного распространения. Однако применение обратимых моделей для удаления шума затруднительно, потому что вход зашумлён, а обратный выход чист и следует двум различным распределениям. Мы предлагаем обратимую сеть шумоподавления InvDN для решения этой проблемы.

InvDN преобразует зашумлённый вход в чистое изображение низкого разрешения и скрытое представление, содержащее шум. Чтобы отбросить шум и восстановить чистое изображение, InvDN заменяет зашумлённое скрытое представление другим, взятым из предварительного распределения во время обращения. Эффективность шумоподавления у InvDN лучше, чем у всех существующих конкурентных моделей, достигая нового уровня техники для набора данных SIDD при меньшем времени выполнения. Кроме того, размер InvDN намного меньше, составляя всего 4,2% от количества параметров по сравнению с недавно предложенным DANet. Более того, манипулируя зашумлённым скрытым представлением, InvDN также способен генерировать шум более... 1.

Обученные модели ConvNet, которые качественно демонстрируют эффективность сети временных сегментов и предложенные передовые методы.

2.

Top-1: 75.06

Быстрый старт.

3.

SlowFast.

SlowFast Networks for Video Recognition.

Мы представляем SlowFast сети для распознавания видео. Наша модель включает в себя (i) медленный путь, работающий с низкой частотой кадров, для захвата пространственной семантики, и (ii) быстрый путь, работающий с высокой частотой кадров, чтобы фиксировать движение с высоким временным разрешением. Быстрый путь может быть сделан очень лёгким путём уменьшения его пропускной способности, но при этом он может изучать полезную временную информацию для распознавания видео. Наши модели достигают высокой производительности как для классификации действий, так и для обнаружения видео, и большие улучшения отмечены как вклад нашей концепции SlowFast. Мы сообщаем о точности на уровне современных технологий на основных тестах распознавания видео, таких как Kinetics, Charades и AVA. Код доступен по адресу: https://github.com/facebookresearch/SlowFast.

k400, Top-1: 74.35

Быстрый старт.

4.

TimeSformer.

Is Space-Time Attention All You Need for Video Understanding?

Мы предлагаем подход к классификации видео без использования свёрток, основанный исключительно на самовнимании в пространстве и времени. Наш метод, названный «TimeSformer», адаптирует стандартную архитектуру Transformer к видео, позволяя изучать пространственно-временные признаки непосредственно из последовательности фрагментов на уровне кадров. В нашем экспериментальном исследовании сравниваются различные схемы самовнимания, и предполагается, что «разделённое внимание», где временное внимание и пространственное внимание отдельно применяются в каждом блоке, приводит к наилучшей точности классификации видео среди рассмотренных вариантов дизайна. Несмотря на радикально новый дизайн, TimeSformer достигает лучших результатов на нескольких тестах распознавания действий, включая лучшую заявленную точность на Kinetics-400 и Kinetics-600. Наконец, по сравнению с 3D свёрточными сетями наша модель быстрее обучается, она может достичь значительно более высокой эффективности тестирования (при небольшом снижении точности), а также может применяться к гораздо более длинным видеоклипам (длиной более одной минуты). Код и модели доступны по адресу: https://github.com/facebookresearch/TimeSformer.

Top-1: 77.29

Быстрый старт.

5.

ST-GCN.

Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition.

Динамика скелетов человеческого тела передаёт значительную информацию для распознавания человеческих действий. Традиционные подходы к моделированию скелетов обычно полагаются на созданные вручную части или правила обхода, что приводит к ограниченной выразительной силе и трудностям обобщения. В этой работе мы предлагаем новую модель динамических скелетов под названием «Пространственно-временные графовые свёрточные сети» (ST-GCN), которая выходит за рамки ограничений предыдущих методов, автоматически изучая как пространственные, так и временные паттерны из данных. Эта формулировка не только приводит к большей выразительности, но и к более сильной способности к обобщению. На двух больших... AGCN

Сети с графовыми свёрточными слоями (GCN), которые обобщают свёрточные нейронные сети до более общих неевклидовых структур, достигли выдающихся результатов в распознавании действий на основе скелета. Однако в предыдущих моделях на базе GCN всё ещё существует несколько проблем. Во-первых, топология графа задаётся эвристически и фиксируется для всех слоёв модели и входных данных. Это может не подходить для иерархии модели GCN и разнообразия данных в задачах распознавания действий.

Во-вторых, редко исследуется информация второго порядка о данных скелета, то есть длина и ориентация костей, что естественно более информативно и различимо для распознавания человеческих действий. В этой работе мы предлагаем новую многопотоковую сеть с усиленными вниманием адаптивными графовыми свёрточными нейронами (MS-AAGCN) для распознавания действий на основе скелетов. Топология графа в нашей модели может быть либо равномерно, либо индивидуально изучена на основе входных данных сквозным образом. Этот подход, основанный на данных, повышает гибкость модели для построения графиков и придаёт ей большую универсальность для адаптации к различным выборкам данных. Кроме того, предложенный адаптивный слой с графовой свёрткой дополнительно усиливается модулем пространственно-временного внимания канала, который помогает модели уделять больше внимания важным суставам, кадрам и функциям. Более того, информация как о суставах, так и о костях вместе с их информацией о движении одновременно моделируется в многопотоковой структуре, что демонстрирует заметное улучшение точности распознавания. Обширные эксперименты на двух крупномасштабных наборах данных NTU-RGBD и Kinetics-Skeleton показывают, что производительность нашей модели значительно превосходит современные достижения.

BMN

Генерация временных предложений действий — это сложная и перспективная задача, которая направлена на определение временных областей в реальных видео, где могут происходить действия или события. Современные методы генерации предложений снизу вверх могут генерировать предложения с точной границей, но не могут эффективно генерировать достаточно надёжные доверительные оценки для извлечения предложений. Чтобы решить эти проблемы, мы представляем механизм Boundary-Matching (BM) для оценки доверительных оценок плотно распределённых предложений, которые обозначают предложение как совпадающую пару начальной и конечной границ и объединяют все плотно распределённые пары BM в карту доверия BM. На основе механизма BM мы предлагаем эффективный, действенный и сквозной метод генерации предложений под названием Boundary-Matching Network (BMN), который генерирует предложения с точными временными границами, а также надёжными доверительными оценками одновременно. Две ветви BMN совместно обучаются в единой структуре. Мы проводим эксперименты на двух сложных наборах данных: THUMOS-14 и ActivityNet-1.3, где BMN демонстрирует значительное улучшение производительности при замечательной эффективности и обобщаемости. Кроме того, в сочетании с существующим классификатором действий BMN может достичь... 1. available at https://github.com/tensorflow/models/tree/master/official/vision

2. CTR-GCN

Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition

В работе «Channel-wise Topology Refinement Graph Convolution for Skeleton-based Action Recognition» предлагается новый метод Channel-wise Topology Refinement Graph Convolution (CTR-GC) для динамического изучения различных топологий и эффективного агрегирования совместных функций в разных каналах для распознавания действий на основе скелета.

Предложенный метод CTR-GC моделирует топологии каналов путём изучения общей топологии как общего приоритета для всех каналов и уточнения её с учётом корреляций канала для каждого канала. Наш метод уточнения вводит несколько дополнительных параметров и значительно снижает сложность моделирования топологий каналов. Кроме того, путём переформулирования графовых свёрток в унифицированную форму мы обнаруживаем, что CTR-GC ослабляет строгие ограничения графовых свёрток, что приводит к более мощным возможностям представления. Комбинируя CTR-GC с модулями временного моделирования, мы разрабатываем мощную графовую свёрточную сеть под названием CTR-GCN, которая заметно превосходит современные методы на наборах данных NTU RGB+D, NTU RGB+D 120 и NW-UCLA.

NTU-RGBD, xs, joint, to p1=89.93

3. MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation

Задача определения местоположения и классификации сегментов действий в длинных необработанных видео представляет особый интерес для многих приложений, таких как наблюдение и робототехника. В то время как традиционные подходы следуют двухэтапному конвейеру, генерируя вероятности кадра за кадром и затем подавая их в высокоуровневые временные модели, недавние подходы используют временные свёртки для непосредственной классификации видеокадров. В этой статье мы представляем многоступенчатую архитектуру для задачи временной сегментации действий. Каждый этап включает набор расширенных временных свёрток для генерации первоначального прогноза, который уточняется следующим этапом. Эта архитектура обучается с использованием комбинации потерь классификации и предложенной потери сглаживания, которая наказывает ошибки чрезмерного сегментирования. Обширная оценка показывает эффективность предлагаемой модели в захвате долгосрочных зависимостей и распознавании сегментов действий. Наша модель достигает лучших результатов на трёх сложных наборах данных: 50Salads, Georgia Tech Egocentric Activities (GTEA) и Breakfast.

50salads, acc=81.8

4. ASRF: Alleviating Over-Segmentation Errors by Detecting Action Boundaries

Мы предлагаем эффективную структуру для задачи временного сегментирования действий, а именно структуру уточнения сегментов действия (ASRF). Наша модельная архитектура состоит из экстрактора долгосрочных признаков и двух ветвей: ветви сегментации действия (ASB) и ветви регрессии границы (BRB). Экстрактор долгосрочных признаков предоставляет общие функции для двух ветвей с широким временным рецептивным полем. ASB классифицирует видеокадры по классам действий, в то время как BRB регрессирует вероятности границ действий. Границы действий, предсказанные с помощью BRB, улучшают результаты ASB, что приводит к значительному повышению производительности. Наш вклад состоит из трёх аспектов:

(i) Мы предлагаем структуру для временной сегментации действий — ASRF, которая разделяет временную сегментацию действий на пофреймовую классификацию действий и регрессию границ действий. Наша структура уточняет гипотезы о классах действий на уровне фреймов, используя предсказанные границы действий.

(ii) Мы предлагаем функцию потерь для сглаживания перехода вероятностей действий и анализируем комбинации различных функций потерь для временной сегментации действий.

(iii) Наша структура превосходит современные методы на трёх сложных наборах данных, предлагая улучшение до 13,7 % в терминах сегментного расстояния редактирования и до 16,1 % в терминах F1-оценки сегмента. Скоро наш код будет доступен публично.

Примечание: часть текста запроса не удалось перевести из-за отсутствия контекста. Целевой объект переднего плана и соответствующий ему фон должны контрастировать, что способствует улучшению результатов сегментации. Благодаря использованию признаков как от объекта переднего плана, так и от фона, наш CFBI выполняет процесс сопоставления между эталонной и предсказанной последовательностью как на уровне пикселей, так и на уровне экземпляров, делая CFBI устойчивым к различным масштабам объектов. Мы проводим обширные эксперименты на трёх популярных бенчмарках: DAVIS 2016, DAVIS 2017 и YouTube-VOS. Наш CFBI достигает производительности (J$F) в 89,4%, 81,9% и 81,4% соответственно, превосходя все другие современные методы.

Код: https://github.com/z-x-yang/CFBI.

Интерактивная сегментация видеообъектов (iVOS) направлена на эффективное получение высококачественных масок сегментации целевого объекта в видео с помощью взаимодействия с пользователем. Большинство предыдущих современных методов решают iVOS с помощью двух независимых сетей для взаимодействия с пользователем и временной пролонгации соответственно, что приводит к неэффективности на этапе вывода. В этой работе мы предлагаем унифицированную структуру под названием Memory Aggregation Networks (MA-Net), чтобы более эффективно решать сложные задачи iVOS. Наша MA-Net объединяет операции взаимодействия и пролонгации в одну сеть, что значительно повышает эффективность iVOS в схеме многоэтапного взаимодействия. Более того, мы предлагаем простой, но эффективный механизм агрегации памяти для записи информативных знаний из предыдущих раундов взаимодействия, значительно повышая надёжность обнаружения сложных объектов интереса. Мы проводим обширные эксперименты над валидационным набором бенчмарка DAVIS Challenge 2018. В частности, наша MA-Net достигает показателя J@60 в 76,1% без каких-либо дополнительных функций, опережая современные методы более чем на 2,7%.

PP-TSMv2: TSM — модуль временного сдвига для эффективного понимания видео.

Взрывной рост потокового видео создаёт проблемы при выполнении понимания видео с высокой точностью и низкой стоимостью вычислений. Традиционные 2D CNN являются вычислительно дешёвыми, но не могут уловить временные отношения; методы на основе 3D CNN могут достичь хорошей производительности, но требуют больших вычислительных затрат, что делает их дорогостоящими в развёртывании. В этой статье мы предлагаем общий и эффективный модуль временного сдвига (TSM), который обеспечивает как высокую эффективность, так и высокую производительность. В частности, он может достичь производительности 3D CNN, сохраняя сложность 2D CNN. TSM смещает часть каналов вдоль временного измерения, облегчая обмен информацией между соседними кадрами. Его можно вставить в 2D CNN для достижения временного моделирования с нулевыми вычислениями и нулевыми параметрами. Мы также расширили TSM до онлайн-настройки, которая позволяет осуществлять распознавание видео и обнаружение объектов в реальном времени с низкой задержкой. TSM является точным и эффективным: после публикации он занимает первое место в списке лидеров Something-Something; на Jetson Nano и Galaxy Note8 он достигает низкой задержки в 13 мс и 35 мс для распознавания видео в режиме реального времени. Token Shift Transformer for Video Classification

Transformer достигает замечательных успехов в понимании одно- и двумерных сигналов (например, обработка естественного языка и понимание содержания изображений). В качестве потенциальной альтернативы свёрточным нейронным сетям он обладает такими достоинствами, как высокая интерпретируемость, мощная способность к распознаванию на гипермасштабированных данных и гибкость при обработке входных данных различной длины. Однако его кодировщики естественным образом содержат ресурсоёмкие операции, такие как попарное самовнимание, что приводит к высокой вычислительной нагрузке при применении к сложным трёхмерным видеосигналам.

В этой статье представлен модуль Token Shift (TokShift), новый оператор с нулевыми параметрами и нулевым количеством операций с плавающей точкой (FLOPs) для моделирования временных отношений внутри каждого кодировщика трансформатора. В частности, TokShift слегка сдвигает частичные признаки токенов [класса] вперёд и назад между соседними кадрами. Затем мы плотно встраиваем модуль в каждый кодировщик простого 2D-трансформера для изучения 3D-представления видео. Стоит отметить, что наш трансформер TokShift — это чистый видеотрансформер без свёрток, обеспечивающий вычислительную эффективность для понимания видео. Эксперименты на стандартных бенчмарках подтверждают его надёжность, эффективность и производительность. В частности, с входными клипами из 8/12 кадров трансформер TokShift достигает точности SOTA: 79,83%/80,40% на наборах данных Kinetics-400, 66,56% на EGTEA-Gaze+ и 96,80% на UCF-101, что сопоставимо или превосходит существующие аналоги SOTA на основе свёрточных сетей. Наш код открыт для использования по адресу: https://github.com/VideoNetworks/TokShift-Transformer.

Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition

При распознавании действий на основе скелета графовые свёрточные сети (GCNs), которые моделируют скелеты человеческого тела как пространственно-временные графы, достигли выдающихся результатов. Однако в существующих методах на основе GCN топология графа задаётся вручную и остаётся фиксированной для всех слоёв и входных образцов. Это может быть неоптимальным для иерархических GCN и разнообразных образцов в задачах распознавания действий. Кроме того, информация второго порядка (длины и направления костей скелета), которая естественно более информативна и различима для распознавания действий, редко исследуется в существующих методах.

В данной работе мы предлагаем новую двухпотоковую адаптивную графовую свёрточную сеть (2s-AGCN) для распознавания действий на основе скелетов. Топология графа в нашей модели может быть либо единообразно, либо индивидуально изучена алгоритмом обратного распространения ошибки (BP) сквозным образом. Этот метод, основанный на данных, повышает гибкость модели для построения графа и придаёт ей большую универсальность для адаптации к различным образцам данных. Более того, предлагается двухпотоковая структура для одновременного моделирования информации первого и второго порядков, что демонстрирует заметное улучшение точности распознавания. Обширные эксперименты на двух крупномасштабных наборах данных, NTU-RGBD и Kinetics-Skeleton, показывают, что производительность нашей модели значительно превышает уровень техники.

YOWO

Не удалось найти информацию о том, что означает аббревиатура YOWO. В данной работе, помимо использования кодировщиков для сбора исторической информации о пользовательских вводах, мы предлагаем использовать граф взаимодействия элементов схемы базы данных для кодировщика, чтобы использовать историческую информацию об элементах схемы базы данных. На этапе декодирования мы вводим механизм гейта, чтобы взвешивать важность различных словарей и затем делать предсказание токенов SQL. Мы оцениваем нашу модель на бенчмарках SParC и CoSQL — это два больших сложных контекстно-зависимых кросс-доменных набора данных «текст-в-SQL». Наша модель значительно превосходит предыдущую современную модель и достигает новых современных результатов на этих двух наборах данных. Результаты сравнения и абляции демонстрируют эффективность нашей модели и полезность графа взаимодействия элементов схемы базы данных как кодировщика.

CoSQL тест/точность соответствия вопросов: 42,5 / точность соответствия взаимодействия: 15,0.

2. RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers.

Когда современные семантические модели перевода сталкиваются с задачей перевода вопросов на естественном языке в SQL-запросы для ответа на вопросы из базы данных, они испытывают трудности с обобщением на неизвестные схемы баз данных. Проблема обобщения заключается в (а) кодировании отношений базы данных доступным для семантического анализа способом и (б) моделировании соответствия между столбцами базы данных и их упоминаниями в заданном запросе. Мы представляем унифицированный фреймворк, основанный на механизме самовнимания с учётом отношений, для решения задач кодирования схем, связывания схем и представления признаков в текстовом кодировщике SQL. На сложном наборе данных Spider этот фреймворк повышает точность точного соответствия до 57,2%, превосходя лучшие аналоги на 8,7% в абсолютном выражении. При дополнительном использовании BERT он достигает нового современного уровня производительности в 65,6% на таблице лидеров Spider. Кроме того, мы наблюдаем качественное улучшение понимания моделью связывания и соответствия схем. Наша реализация будет открыта по этому URL-адресу. DuSQL: 64,3.

3. BiGRU-CRF: Chinese Lexical Analysis with Deep Bi-GRU-CRF Network.

Считается, что лексический анализ является ключевым шагом к пониманию естественного языка и широко изучается. В последние годы всё больше внимания уделяется моделям лексического анализа «конец-в-конец» с рекуррентными нейронными сетями. В этом отчёте мы представляем глубокую сеть Bi-GRU-CRF, которая совместно моделирует задачи сегментации слов, тегирования частей речи и распознавания именованных сущностей. Мы обучили модель, используя несколько массивных корпусов, предварительно размеченных нашим лучшим инструментом китайского лексического анализа, вместе с небольшим, но высококачественным корпусом, размеченным человеком. Мы провели сбалансированную выборку между различными корпусами, чтобы гарантировать влияние человеческих аннотаций, и регулярно настраивали слой декодирования CRF во время обучения. По оценке лингвистов, модель достигла точности в 95,5% на тестовом наборе, примерно на 13% уменьшив относительную ошибку по сравнению с нашим (ранее) лучшим инструментом для китайского лексического анализа. Модель вычислительно эффективна, достигая скорости 2,3 тыс. символов в секунду при одном потоке. Данные не были открыты.

4. Deep Biaffine Attention for Neural Dependency Parsing.

В этой статье... Текст запроса написан на английском языке.

Текст запроса:

builds off recent work from Kiperwasser & Goldberg (2016) using neural attention in a simple graph-based dependency parser. We use a larger but more thoroughly regularized parser than other recent BiLSTM-based approaches, with biaffine classifiers to predict arcs and labels. Our parser gets state of the art or near state of the art performance on standard treebanks for six different languages, achieving 95.7% UAS and 94.1% LAS on the most popular English PTB dataset. This makes it the highest-performing graph-based parser on this benchmark---outperforming Kiperwasser Goldberg (2016) by 1.8% and 2.2%---and comparable to the highest performing transition-based parser (Kuncoro et al., 2016), which achieves 95.8% UAS and 94.6% LAS. We also show which hyperparameter choices had a significant effect on parsing accuracy, allowing us to achieve large gains over other graph-based approaches.

Перевод текста запроса на русский язык:

Основан на недавней работе Кипервассера и Голдберга (2016 г.), использующей нейронное внимание в простом графе на основе анализатора зависимостей. Мы используем более крупный, но более тщательно отрегулированный анализатор по сравнению с другими недавними подходами на основе BiLSTM, с классификаторами biaffine для прогнозирования дуг и меток. Наш анализатор показывает результаты на уровне лучших или близких к лучшим результатам на стандартных древовидных банках для шести различных языков, достигая 95,7 % UAS и 94,1 % LAS на самом популярном наборе данных PTB на английском языке. Это делает его самым эффективным графовым анализатором на этом бенчмарке, превосходящим Кипервассер Голдберг (2016 г.) на 1,8 % и 2,2 %, и сопоставимым с самым эффективным анализатором переходов (Кункоро и др., 2016 г.), который достигает 95,8 % UAS и 94,6 % LAS. Мы также показываем, какие варианты гиперпараметров оказали значительное влияние на точность анализа, что позволило нам добиться значительных успехов по сравнению с другими графовыми подходами. Абстракт

Доминирующие модели преобразования последовательностей основаны на сложных рекуррентных или свёрточных нейронных сетях в конфигурации кодировщик-декодировщик. Лучшие модели также соединяют кодировщик и декодировщик через механизм внимания. Мы предлагаем новую простую сетевую архитектуру, Трансформер, основанную исключительно на механизмах внимания, полностью отказываясь от рекурсии и свёрток. Эксперименты на двух задачах машинного перевода показывают, что эти модели превосходят по качеству, будучи более параллелизуемыми и требуя значительно меньше времени для обучения. Наша модель достигает 28,4 BLEU на задаче перевода с английского на немецкий WMT 2014, улучшая существующие лучшие результаты, включая ансамбли, более чем на 2 BLEU. На задаче перевода с английского на французский WMT 2014 наша модель устанавливает новый рекорд качества для одиночной модели BLEU, равный 41,8 после обучения в течение 3,5 дней на восьми графических процессорах, что составляет небольшую часть затрат на обучение лучших моделей из литературы. Мы показываем, что Трансформер хорошо обобщается на другие задачи, успешно применяя его к анализу английской структуры предложения как с большими, так и с ограниченными данными обучения.

WMT14 en-de / Трансформер base / BLEU: 27,3

Быстрый старт

STACL

Одновременный перевод, который переводит предложения до того, как они закончены, полезен во многих сценариях, но, как известно, труден из-за различий в порядке слов. В то время как традиционная последовательность-последовательность подходит только для полного перевода предложений, мы предлагаем новую префикс-префиксную структуру для одновременного перевода, которая неявно учится предвосхищать в одной модели перевода. В рамках этой структуры мы представляем очень простую, но удивительно эффективную политику «подожди-k», обученную генерировать целевое предложение одновременно с исходным предложением, но всегда на k слов позади. Эксперименты показывают, что наша стратегия обеспечивает низкую задержку и разумное качество (по сравнению с полным переводом предложений) в 4 направлениях: zh↔en и de↔en.

Wait-3 BLEU: 34,24

Быстрый старт

SKEP

В последнее время анализ настроений добился замечательных успехов благодаря подходам предварительного обучения. Однако знания о настроениях, такие как слова о настроениях и пары аспект-настроение, игнорируются в процессе предварительного обучения, несмотря на то, что они широко используются в традиционных подходах анализа настроений. В этой статье мы представляем предварительное обучение с усилением знаний о настроениях (SKEP), чтобы изучить унифицированное представление настроений для нескольких задач анализа настроений. С помощью автоматически добытых знаний SKEP проводит маскировку настроений и строит три цели прогнозирования знаний о настроении, чтобы внедрить информацию о настроении на уровне слов, полярности и аспектов в предварительно обученное представление о настроении. В частности, предсказание пар аспект-настроение преобразуется в мульти-лейбл классификацию, нацеленную на захват зависимости между словами в паре. Эксперименты по трём видам задач анализа настроений показывают, что SKEP значительно превосходит сильный базовый уровень предварительного обучения и достигает новых результатов уровня техники на большинстве тестовых наборов данных. Мы выпускаем наш код по этому URL.

SST-2 / acc: 97,60

Быстрый старт Sentence-Transformer

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

BERT (Devlin et al., 2018) и RoBERTa (Liu et al., 2019) установили новый уровень производительности в задачах регрессии для пар предложений, таких как семантическое текстовое сходство (STS). Однако это требует подачи обоих предложений в сеть, что приводит к значительным вычислительным затратам: поиск наиболее похожей пары в наборе из 10 000 предложений требует около 50 миллионов вычислений вывода (~65 часов) с BERT.

Конструкция BERT делает его непригодным для поиска семантического сходства, а также для неконтролируемых задач, таких как кластеризация. В этой публикации мы представляем Sentence-BERT (SBERT), модификацию предварительно обученной сети BERT, которая использует сиамские и тройные сетевые структуры для получения семантически значимых вложений предложений, которые можно сравнивать с помощью косинусного сходства. Это снижает усилия по поиску наиболее похожей пары с 65 часов с BERT/RoBERTa до примерно 5 секунд с SBERT при сохранении точности BERT. Мы оцениваем SBERT и SRoBERTa на общих задачах STS и задачах трансферного обучения, где он превосходит другие современные методы встраивания предложений.

SST / SBERT-NLI-large / 90.66

Быстрый старт

12

EFL

Entailment as Few-Shot Learner

Большие предварительно обученные языковые модели (LMs) продемонстрировали замечательную способность к обучению на нескольких примерах. Однако их успех во многом зависит от масштабирования параметров модели до такой степени, что обучение и обслуживание становятся сложными задачами. В этой статье мы предлагаем новый подход, названный EFL, который может превратить небольшие LMs в более эффективных учеников на нескольких примерах. Ключевая идея этого подхода заключается в том, чтобы переформулировать потенциальную задачу NLP в задачу логического следования, а затем точно настроить модель всего с 8 примерами.

Мы также демонстрируем, что наш предложенный метод может быть: (i) естественным образом объединён с методом контрастивного обучения без учителя; (ii) легко расширен до многоязычного обучения на нескольких примерах. Систематическая оценка 18 стандартных задач NLP показывает, что этот подход улучшает различные существующие методы обучения на нескольких примерах на 12% и обеспечивает конкурентоспособную производительность на нескольких примерах с моделями, в 500 раз большими, такими как GPT-3.

SST-2 / acc: 90,8

Быстрый старт

13

PET

Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

Некоторые задачи NLP могут быть полностью решены без учителя путём предоставления предварительно обученной языковой модели с «описаниями задач» на естественном языке (например, Radford et al., 2019). Хотя этот подход уступает своему контролируемому аналогу, мы показываем в этой работе, что эти две идеи можно объединить: мы представляем Pattern-Exploiting Training (PET), полуконтролируемый процесс обучения, который переформулирует входные примеры в виде фраз в стиле клоуз, чтобы помочь языковым моделям понять данную задачу. Эти фразы затем используются для присвоения мягких меток большому набору немеченых примеров. Наконец, стандартное контролируемое обучение выполняется на полученном наборе данных. Для нескольких задач и языков PET значительно превосходит контролируемое обучение и сильные полуконтролируемые подходы в условиях ограниченных ресурсов.

MNLI/acc:85.3(m)

Быстрый старт

14

P-Tuning ALBERT: облегчённая версия BERT для самостоятельного изучения языковых представлений

Увеличение размера модели при предварительном обучении представлениям естественного языка часто приводит к улучшению производительности в последующих задачах. Однако в какой-то момент дальнейшее увеличение модели становится затруднительным из-за ограничений памяти GPU/TPU и более длительного времени обучения. Чтобы решить эти проблемы, мы представляем два метода уменьшения параметров, чтобы снизить потребление памяти и увеличить скорость обучения BERT.

Всесторонние эмпирические данные показывают, что предложенные методы приводят к моделям, которые масштабируются намного лучше по сравнению с оригинальным BERT. Мы также используем самоконтролируемую потерю, которая фокусируется на моделировании межфразовой связности, и показываем, что она последовательно помогает последующим задачам с многофразовыми входами. В результате наша лучшая модель устанавливает новые результаты уровня state-of-the-art на тестах GLUE, RACE и SQuAD, имея меньше параметров по сравнению с BERT-large. Код и предварительно обученные модели доступны по этому URL.

BERT: предварительное обучение глубоких двунаправленных преобразователей для понимания языка

Мы представляем новую модель представления языка под названием BERT, что означает двунаправленные представления кодировщика от трансформаторов. В отличие от недавних моделей представления языка, BERT предназначен для предварительного обучения глубоким двунаправленным представлениям из немаркированного текста путём совместного кондиционирования как левого, так и правого контекста на всех слоях. В результате предварительно обученную модель BERT можно точно настроить с помощью всего одного дополнительного выходного слоя для создания передовых моделей для широкого спектра задач, таких как ответы на вопросы и языковой вывод, без существенных модификаций архитектуры, специфичных для задачи.

Big Bird: преобразователи для более длинных последовательностей

BERT концептуально прост и эмпирически эффективен. Он достигает новых результатов уровня state-of-the-art в одиннадцати задачах обработки естественного языка, включая повышение оценки GLUE до 80,5% (абсолютное улучшение на 7,7%), точность MultiNLI до 86,7% (абсолютное улучшение на 4,6%), вопрос-ответ SQuAD v1.1 Test F1 до 93,2 (абсолютное улучшение на 1,5 пункта) и вопрос-ответ SQuAD v2.0 Test F1 до 83,1 (абсолютное улучшение на 5,1 пункта).

DistilBERT: дистиллированная версия BERT: меньше, быстрее, дешевле и легче

По мере того как трансферное обучение из крупномасштабных предварительно обученных моделей становится всё более распространённым в обработке естественного языка (NLP), работа с этими большими моделями в условиях ограниченных вычислительных ресурсов для обучения или вывода остаётся сложной задачей. В этой работе мы предлагаем метод предварительного обучения меньшей универсальной языковой модели представления, называемой DistilBERT, которую затем можно точно настроить для достижения хороших результатов в широком спектре задач, подобных её более крупным аналогам. Меньшая, более быстрая и лёгкая модель: результаты обучения

Мы уменьшили размер модели BERT на 40%, сохранив при этом 97% её способности к пониманию языка и ускорив её работу на 60%. Чтобы использовать индуктивные смещения, полученные более крупными моделями в процессе предварительного обучения, мы ввели тройную потерю, объединяющую языковое моделирование, дистилляцию и потери на основе косинусного расстояния. Наша меньшая, более быстрая и легкая модель дешевле в предварительном обучении, и мы демонстрируем её возможности для вычислений на устройстве в экспериментах с доказательством концепции и сравнительном исследовании на устройстве.

SST-2 / dev: 91.4

Быстрый старт

ELECTRA: предварительное обучение текстовых кодировщиков как дискриминаторов, а не генераторов

Методы предварительного обучения с использованием маскированного языкового моделирования (MLM), такие как BERT, искажают входные данные, заменяя некоторые токены на [MASK], а затем обучают модель восстанавливать исходные токены. Хотя они дают хорошие результаты при переносе на последующие задачи НЛП, обычно они требуют больших вычислительных ресурсов для эффективной работы. В качестве альтернативы мы предлагаем более эффективную задачу предварительного обучения под названием «обнаружение заменённых токенов». Вместо того чтобы маскировать входные данные, наш подход искажает их, заменяя некоторые токены правдоподобными альтернативами, взятыми из небольшой генераторной сети. Затем вместо обучения модели, которая предсказывает исходные идентификаторы искажённых токенов, мы обучаем дискриминативную модель, которая предсказывает, был ли каждый токен во входных данных заменён образцом генератора или нет. Тщательные эксперименты показывают, что эта новая задача предварительного обучения более эффективна, чем MLM, поскольку задача определяется для всех входных токенов, а не только для небольшого подмножества, которое было замаскировано. В результате контекстные представления, изученные нашим подходом, значительно превосходят те, которые изучены BERT при том же размере модели, данных и вычислительных ресурсах. Прирост особенно силён для небольших моделей; например, мы обучили модель на одном графическом процессоре в течение 4 дней, которая превосходит GPT (обученную с использованием в 30 раз больше вычислительных ресурсов) в тесте понимания естественного языка GLUE. Наш подход также хорошо работает в масштабе, где он сравнивается с RoBERTa и XLNet, используя менее четверти их вычислительных ресурсов, и превосходит их при использовании того же объёма вычислительных ресурсов.

MNLI / ELECTRA-1.75M / 90.9

Быстрый старт

Языковые модели — это неконтролируемые многозадачные обучающиеся

Задачи обработки естественного языка, такие как ответы на вопросы, машинный перевод, понимание прочитанного и обобщение, обычно решаются с помощью контролируемого обучения на наборах данных, специфичных для задач. Мы демонстрируем, что языковые модели начинают изучать эти задачи без какого-либо явного контроля при обучении на новом наборе данных из миллионов веб-страниц под названием WebText. Когда модель языка дополняется документом плюс вопросами, ответы, генерируемые языковой моделью, достигают 55 F1 на наборе данных CoQA, соответствуя или превышая производительность 3 из 4 базовых систем без использования более 127 000 обучающих примеров. Ёмкость языковой модели имеет решающее значение для успеха передачи задач с нулевым выстрелом, и её увеличение улучшает производительность в логарифмически-линейной прогрессии по задачам. Наша самая большая модель, GPT-2, представляет собой преобразователь с 1,5 млрд параметров, который достигает наилучших результатов на 7 из 8 протестированных наборов данных для языкового моделирования в условиях нулевого выстрела, но всё ещё не соответствует требованиям WebText. Образцы из модели отражают эти улучшения и содержат связные абзацы текста. Эти результаты указывают на перспективный путь к созданию систем обработки языка, которые учатся выполнять задачи на основе своих естественных демонстраций.

SST-2 / acc: 94.495

Быстрый старт Быстрое начало

NeZha: Нейронное контекстуализированное представление для понимания китайского языка

В технических отчётах мы представляем нашу практику предварительного обучения языковых моделей под названием NeZha (NEural contextualiZed representation for CHinese lAnguage understanding) на китайских корпусах и их точной настройки для задач понимания китайского языка (Chinese NLU tasks). Текущая версия NeZha основана на BERT с набором проверенных улучшений, которые включают функциональное относительное позиционное кодирование в качестве эффективной схемы позиционного кодирования, стратегию маскировки целых слов, смешанное обучение точности и оптимизатор LAMB при обучении моделей. Экспериментальные результаты показывают, что NeZha достигает лучших результатов при точной настройке на нескольких репрезентативных китайских задачах, включая распознавание именованных сущностей (People's Daily NER), сопоставление предложений (LCQMC), классификацию настроений на китайском языке (ChnSenti) и естественный языковой вывод (XNLI).

XNLI / NEZHA-Large-WW M / dev: 82,21

Быстрое начало

RoBERTa: Устойчивый подход к предварительному обучению BERT

Предварительное обучение языковых моделей привело к значительному увеличению производительности, но тщательное сравнение между различными подходами затруднено. Обучение является дорогостоящим с точки зрения вычислений, часто проводится на частных наборах данных разного размера, и, как мы покажем, выбор гиперпараметров оказывает значительное влияние на конечные результаты. Мы представляем исследование по репликации предварительного обучения BERT (Devlin et al., 2019), в котором тщательно измеряется влияние многих ключевых гиперпараметров и размера обучающих данных. Мы обнаруживаем, что BERT был значительно недообучен и может соответствовать или превосходить производительность каждой модели, опубликованной после него. Наша лучшая модель достигает наилучших результатов на GLUE, RACE и SQuAD. Эти результаты подчёркивают важность ранее упущенных конструктивных решений и поднимают вопросы об источнике недавно зарегистрированных улучшений. Мы выпускаем наши модели и код.

MNLI / dev: 90,2/90,2

Быстрое начало

MiniLMv2: Многоголовое самовнимание для сжатия предварительно обученных трансформаторов

Мы обобщаем глубокое самовнимание в MiniLM (Wang et al., 2020), используя только самовнимание для независимого от задач сжатия предварительно обученных трансформаторов. В частности, мы определяем многоголовые отношения самовнимания как масштабированное скалярное произведение между парами векторов запросов, ключей и значений внутри каждого модуля самовнимания. Затем мы используем это знание отношений для обучения студенческой модели. Помимо простоты и унифицированного принципа, более благоприятно то, что нет ограничений в отношении количества студенческих голов внимания, в то время как большинство предыдущих работ должны были гарантировать одинаковое количество голов между учителем и учеником. Кроме того, мелкомасштабные отношения самовнимания, как правило, полностью используют знания взаимодействия, полученные с помощью Transformer. Кроме того, мы тщательно изучаем стратегию выбора слоёв для моделей учителей, а не просто полагаемся на последний слой, как в MiniLM. Мы проводим обширные эксперименты по сжатию как одноязычных, так и многоязычных предварительно обученных моделей. Результаты экспериментов... Демонстрация того, что наши модели, дистиллированные из учителей базового и большого размера (BERT, RoBERTa и XLM-R), превосходят современные достижения.

AFQMC / dev: 71.38

Быстрый старт

31

TinyBert

TinyBERT: Distilling BERT for Natural Language Understanding

Быстрый старт

32

XLNet

XLNet: Generalized Autoregressive Pretraining for Language Understanding

SST-2 / dev: 94.3

Быстрый старт

33

ERNIE-M

ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora

В тексте запроса приведены фрагменты статей с сайта Papers with Code. В них описывается работа над различными моделями машинного обучения для обработки естественного языка.

Текст содержит информацию о моделях TinyBERT, XLNet и ERNIE-M, а также результаты их тестирования на различных задачах. Быстрое начало

ProphetNet: предсказание будущих N-грамм для предварительной подготовки последовательности к последовательности

В этой статье представлена новая модель предварительной подготовки последовательности к последовательности под названием ProphetNet, которая вводит новую цель самоконтроля, называемую предсказанием будущих N-грамм, и предложенный механизм самовнимания с N потоками. Вместо оптимизации одношагового прогнозирования в традиционной модели «последовательность-последовательность» ProphetNet оптимизируется с помощью прогнозирования на n шагов вперёд, которое одновременно предсказывает следующие n токенов на основе предыдущих контекстных токенов на каждом временном шаге. Предсказание будущих N-грамм явно побуждает модель планировать будущие токены и предотвращать переобучение на сильных локальных корреляциях. Мы предварительно обучаем ProphetNet с использованием набора данных базового масштаба (16 ГБ) и крупномасштабного набора данных (160 ГБ), соответственно. Затем мы проводим эксперименты на бенчмарках CNN/DailyMail, Gigaword и SQuAD 1.1 для задач абстрактного обобщения и генерации вопросов. Результаты экспериментов показывают, что ProphetNet достигает новых результатов уровня техники на всех этих наборах данных по сравнению с моделями, использующими тот же масштаб предварительного обучения.

SQuAD 1.1 Быстрое начало

Rembert: переосмысление встраивания связи в предварительно обученные языковые модели

Мы пересматриваем стандартную практику совместного использования весов между входными и выходными вложениями в современных предварительно обученных языковых моделях. Мы показываем, что разъединённые вложения обеспечивают повышенную гибкость моделирования, позволяя нам значительно повысить эффективность распределения параметров во входном встраивании многоязычных моделей. Перераспределяя параметры входного встраивания в слоях Transformer, мы достигаем значительно лучшей производительности при стандартных задачах понимания естественного языка с тем же количеством параметров во время точной настройки. Мы также показываем, что выделение дополнительной ёмкости для выходного встраивания приносит пользу модели, которая сохраняется на этапе точной настройки, хотя выходное вложение отбрасывается после предварительного обучения. Наш анализ показывает, что более крупные выходные вложения предотвращают чрезмерную специализацию последних слоёв модели на задаче предварительного обучения и побуждают представления Transformer быть более общими и более переносимыми на другие задачи и языки. Используя эти выводы, мы можем обучать модели, которые достигают высокой производительности на XTREME без увеличения количества параметров на этапе точной настройки.

XTREME Быстрое начало

UIE: унифицированная генерация структуры для универсального извлечения информации

Извлечение информации страдает от различных целей, гетерогенных структур и схем, специфичных для спроса. В этой статье мы предлагаем унифицированную структуру генерации текста для извлечения универсальной информации, а именно UIE, которая может универсально моделировать различные задачи IE, адаптивно генерировать целевые структуры и совместно изучать общие способности IE из различных источников знаний. В частности, UIE единообразно кодирует различные структуры извлечения с помощью структурированного языка извлечения, адаптивно генерирует целевые извлечения с помощью механизма подсказок на основе схемы — инструктора структурных схем, и фиксирует общие способности IE с помощью крупномасштабной предварительно обученной модели текст-структура. Эксперименты показывают, что UIE достигла лучших результатов на 4 задачах IE, 13 наборах данных. И далее для широкого спектра задач по извлечению сущностей, отношений, событий и настроений в условиях надзора, ограниченных ресурсов и малого числа примеров. Результаты подтвердили эффективность, универсальность и переносимость UIE.

F1

Быстрое начало

Blenderbot

Мы представляем BlenderBot 3 — модель диалога с 175 миллиардами параметров, способную вести разговор на общие темы с доступом к интернету и долговременной памятью. Модель была обучена на большом количестве пользовательских задач. Мы публикуем веса модели и код, а также развернули модель на общедоступной веб-странице для взаимодействия с реальными пользователями. В этом техническом отчёте описывается, как была построена модель (архитектура, модель и схема обучения), а также подробно рассказывается о её развёртывании, включая механизмы безопасности. Человеческие оценки показывают превосходство этой модели над существующими агентами открытого диалога, включая её предшественников (Roller et al., 2021; Komeili et al., 2022). Наконец, мы подробно описываем наш план постоянного обучения с использованием данных, собранных при развёртывании модели, которые также будут опубликованы. Цель этой исследовательской программы — дать возможность сообществу изучать постоянно совершенствующихся ответственных агентов, которые учатся через взаимодействие.

F1

Быстрое начало

BlenderbotSmall

Мы представляем BlenderBot 3 — модель диалога с 175 миллиардами параметров, способную вести разговор на общие темы с доступом к интернету и долговременной памятью. Модель была обучена на большом количестве пользовательских задач. Мы публикуем веса модели и код, а также развёрнули модель на общедоступной веб-странице для взаимодействия с реальными пользователями. В этом техническом отчёте описывается, как была построена модель (архитектура, модель и схема обучения), а также подробно рассказывается о её развёртывании, включая механизмы безопасности. Человеческие оценки показывают превосходство этой модели над существующими агентами открытого диалога, включая её предшественников (Roller et al., 2021; Komeili et al., 2022). Наконец, мы подробно описываем наш план постоянного обучения с использованием данных, собранных при развёртывании модели, которые также будут опубликованы. Цель этой исследовательской программы — дать возможность сообществу изучать постоянно совершенствующихся ответственных агентов, которые учатся через взаимодействие.

F1

Быстрое начало

ChineseBert

В недавних моделях предварительного обучения на китайском языке игнорируются два важных аспекта, характерных для китайского языка: глиф и пиньинь, которые несут значительную синтаксическую и семантическую информацию для понимания языка. В этой работе мы предлагаем ChineseBERT, который включает в предварительное обучение языковой модели информацию о глифах и пиньине китайских иероглифов. Встраивание глифов получается на основе различных шрифтов китайского иероглифа, что позволяет улавливать семантику иероглифа по визуальным признакам, а встраивание пиньиня характеризует произношение китайских иероглифов, которое учитывает широко распространённое явление гетеронима в китайском языке (один и тот же иероглиф имеет разное произношение). ChineseBERT

ChineseBERT — модель, обученная на большом немаркированном китайском корпусе. Предложенная модель ChineseBERT значительно повышает производительность по сравнению с базовыми моделями при меньшем количестве шагов обучения. Предлагаемая модель достигает новых показателей SOTA в широком спектре задач китайского NLP, включая понимание машинного чтения, вывод естественного языка, классификацию текста, сопоставление пар предложений и конкурентоспособные показатели в распознавании именованных сущностей. Код и предварительно обученные модели доступны публично по ссылке: https://github.com/ShannonAI/ChineseBert.

CodeGen

CodeGen — это открытая большая языковая модель для кода с многошаговым синтезом программ. Синтез программ стремится генерировать компьютерную программу как решение данной спецификации проблемы, выраженной с помощью примеров ввода-вывода или описаний на естественном языке. Распространение больших языковых моделей продвигает современное состояние синтеза программ, хотя ограниченные ресурсы обучения и данные препятствуют открытому доступу к таким моделям. Чтобы демократизировать этот процесс, мы обучаем и выпускаем семейство больших языковых моделей до 16,1 млрд параметров, называемых CodeGen, на данных естественного и программирования языков, а также открываем библиотеку JAXFORMER. Мы показываем полезность обученной модели, демонстрируя, что она конкурентоспособна с предыдущим современным уровнем в генерации кода Python без предварительного обучения на HumanEval. Далее мы исследуем парадигму многоэтапного синтеза программ, где одна программа разбивается на несколько подсказок, определяющих подзадачи. С этой целью мы создаём открытый бенчмарк Multi-Turn Programming Benchmark (MTPB), состоящий из 115 разнообразных наборов задач, которые разбиты на многоэтапные подсказки. Наш анализ MTPB показывает, что тот же замысел, предоставленный CodeGen в многоэтапной манере, значительно улучшает синтез программ по сравнению с тем, который предоставляется в виде одного этапа. Мы делаем библиотеку обучения JAXFORMER и контрольные точки модели доступными в качестве открытого исходного кода: https://github.com/salesforce/CodeGen.

ConvBERT

ConvBERT — это модификация архитектуры BERT, которая использует динамическую свёрточную функцию на основе промежутков для замены самовнимания, чтобы непосредственно моделировать локальные зависимости. В частности, новый модуль смешанного внимания заменяет модули самовнимания в BERT, используя преимущества свёртки для лучшего захвата локальных зависимостей. Кроме того, новая операция динамической свёртки на основе промежутка используется для использования нескольких входных токенов для динамического создания ядра свёртки. Наконец, ConvBERT также включает некоторые новые конструкции моделей, включая узкое внимание и сгруппированный линейный оператор для модуля прямой связи (уменьшая количество параметров).

CTRL

CTRL — это условная языковая модель трансформатора, обученная для управления контрольными кодами, которые регулируют стиль, содержание и поведение, специфичное для задачи. Контрольные коды были получены из структуры, которая естественным образом встречается вместе с необработанным текстом, сохраняя преимущества неконтролируемого обучения, обеспечивая при этом более явный контроль над генерацией текста. Эти коды также позволяют CTRL предсказывать, какие части данных обучения... Вероятнее всего, в запросе текст технической направленности из области разработки и тестирования программного обеспечения. Основной язык текста запроса — английский.

Вот перевод текста на русский язык:

Скорее всего дана последовательность

PPL Быстрое начало

Номер	Сокращённое название модели	Название статьи (ссылка)	Аннотация	Набор данных	Быстрый старт
1	PP-HumanSeg-Server (DeepLabv3p_resnet50)	Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation	Abstract В глубоких нейронных сетях для задачи семантической сегментации используются модуль пространственной пирамидальной свёртки или структура кодировщика-декодера. Первые сети способны кодировать многомасштабную контекстную информацию, исследуя входящие признаки с помощью фильтров или операций объединения на разных частотах и с разными эффективными полями зрения, в то время как вторые сети могут улавливать более чёткие границы объектов, постепенно восстанавливая пространственную информацию. В этой работе мы предлагаем объединить преимущества обоих методов. В частности, наша предложенная модель DeepLabv3+ расширяет DeepLabv3, добавляя простой, но эффективный модуль декодера для уточнения результатов сегментации, особенно вдоль границ объектов. Мы также исследуем модель Xception и применяем глубинную разделимую свёртку как к пространственному объединению пирамид с отверстиями, так и к модулям декодера, что приводит к более быстрой и мощной сети кодировщик-декодер. Мы демонстрируем эффективность предложенной модели на наборах данных PASCAL VOC 2012 и Cityscapes, достигая производительности тестового набора в 89,0 % и 82,1 % без какой-либо постобработки. Наша статья сопровождается общедоступной эталонной реализацией предложенных моделей в Tensorflow по адресу https://github.com/tensorflow/models/tree/master/research/deeplab.	Внутренний набор данных изображений людей / mIoU = 97,16%	Быстрый старт
2	PP-Matting	Is a Green Screen Really Necessary for Real-Time Portrait Matting?	Abstract Для матирования портрета без...	...	Быстрый старт

№	Модель	Ссылка	Результат	Ссылка для быстрого старта
37	SwinUNet	Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation	—	https://github.com/.../Swin-Unet
38	nnUNet	nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation	—	—

№	Модель	Название статьи (ссылка)	Резюме	Набор данных	Быстрое начало
1	PP-MSVSR	PP-MSVSR: Multi-Stage Video Super-Resolution	Abstract: задача видеосверхразрешения (VSR) отличается от задачи сверхразрешения одного изображения (SISR). Ключевым моментом в VSR является полное использование взаимодополняющей информации между кадрами для восстановления последовательности с высоким разрешением. Поскольку изображения из разных кадров имеют разное движение и сцену, точное выравнивание нескольких кадров и эффективное объединение разных кадров всегда было ключевой областью исследований в задачах VSR. В этой статье мы предлагаем многоэтапную глубокую архитектуру VSR под названием PP-MSVSR с модулем локального объединения, вспомогательной потерей и модулем повторного выравнивания для постепенного уточнения улучшенного результата.	Vid4

45 DALL-E Генерация изображений по тексту без обучения

Аннотация

Генерация изображения по тексту традиционно фокусируется на поиске лучших предположений моделирования для обучения на фиксированном наборе данных. Эти предположения могут включать сложные архитектуры, вспомогательные потери или дополнительную информацию, такую как метки частей объектов или маски сегментации, предоставляемые во время обучения. Мы описываем простой подход к этой задаче, основанный на трансформаторе, который авторегрессивно моделирует текстовые и графические токены как единый поток данных. При достаточном объёме данных и масштабе наш подход конкурентоспособен с предыдущими моделями, специфичными для предметной области, при оценке в режиме без обучения.

FID Быстрое начало 46 Ernie-Layout ERNIE-Layout: Предварительное обучение с улучшенными знаниями о макете для понимания визуально богатых документов

Аннотация

F1 Быстрое начало 47 Ernie-Vil ERNIE-ViL: Улучшенные представления визуальных образов и языка с помощью графа сцены

Аннотация

Мы предлагаем подход, основанный на знаниях, ERNIE-ViL, который включает структурированные знания, полученные из графов сцен, для изучения совместных представлений визуальных образов и языка. ERNIE-Vil пытается построить подробные семантические связи (объекты, атрибуты объектов и отношения между объектами) между визуальными образами и языком, которые необходимы для кросс-модальных задач визуальных образов и языка. Используя графы сцен визуальных сцен, ERNIE-ViL создаёт задачи прогнозирования графа сцен, то есть прогнозирование объектов, атрибутов и отношений в фазе предварительного обучения. В частности, эти задачи прогнозирования реализуются путём прогнозирования узлов различных типов в графе сцены, проанализированном из предложения. Таким образом, ERNIE-ViL может изучать совместные представления, характеризующие выравнивание подробной семантики между визуальными образами и языком. После предварительного обучения на больших наборах данных, выровненных по изображениям и тексту, мы проверяем эффективность ERNIE-ViL на 5 задачах для последующих модальностей. ERNIE-ViL достигает передовых результатов во всех этих задачах и занимает первое место в таблице лидеров VCR с абсолютным улучшением в 3,7%.

Recall Быстрое начало 48 Funnel-Transformer Funnel-Transformer: Отсеивание последовательной избыточности для эффективной обработки языка

Аннотация

С успехом предварительного обучения языковым моделям крайне желательно разработать более эффективные архитектуры с хорошей масштабируемостью, которые могут использовать обильные немаркированные данные с меньшими затратами. Чтобы повысить эффективность, мы рассматриваем часто упускаемую из виду избыточность в поддержании полноразмерного представления на уровне токенов, особенно для задач, требующих одновекторного представления последовательности. Исходя из этой интуиции, мы предлагаем Funnel-Transformer, который постепенно сжимает последовательность скрытых состояний до более короткой и, следовательно, снижает вычислительные затраты. Что ещё более важно, повторно инвестируя FLOPs, сэкономленные за счёт сокращения длины, в построение более глубокой или

Многомодальный энкодер Transformer, используемый в LayoutLMv2, не только решает задачу моделирования визуально-языковых данных с использованием маскирования, но и включает новые задачи выравнивания текста и изображения и сопоставления текста и изображения. Это позволяет лучше улавливать взаимодействие между различными модальностями на этапе предварительного обучения.

Кроме того, в архитектуру Transformer интегрирован механизм самовнимания, учитывающий пространственные характеристики, что позволяет модели полностью понимать относительные позиционные взаимосвязи между различными текстовыми блоками. Результаты экспериментов показывают, что LayoutLMv2 значительно превосходит LayoutLM и достигает новых результатов уровня «state-of-the-art» в широком спектре задач понимания документов с богатым визуальным содержанием, таких как FUNSD (0.7895 0.8420), CORD (0.9493 0.9601), SROIE (0.9524 0.9781), Kleister-NDA (0.8340 0.8520), RVL-CDIP (0.9443 0.9564) и DocVQA (0.7295 0.8672).

Мы сделали нашу модель и код общедоступными по адресу \url{https://aka.ms/layoutlmv2}.

mBART — это модель последовательности к последовательности для автоматического кодирования с шумоподавлением, предварительно обученная на крупномасштабных одноязычных корпусах на многих языках с использованием цели BART. Входные тексты подвергаются шуму путём маскирования фраз и перестановки предложений, и для восстановления текстов обучается единая модель Transformer. В отличие от других подходов к предварительному обучению машинному переводу, mBART предварительно обучает полную авторегрессивную модель Seq2Seq.

mBART обучается один раз для всех языков, предоставляя набор параметров, которые можно точно настроить для любой пары языков в условиях как контролируемого, так и неконтролируемого обучения без каких-либо специфических для задачи или языка модификаций или схем инициализации.

Megatron-LM — это статья о тренировке языковых моделей с несколькими миллиардами параметров с использованием параллелизма моделей.

MobileBERT — это компактная универсальная модель BERT для устройств с ограниченными ресурсами. MobileBERT представляет собой разновидность BERT с обратным узким местом, которая сжимает и ускоряет популярную модель BERT. MobileBERT — это тонкая версия BERT_LARGE, оснащённая структурами узких мест и тщательно сбалансированным соотношением между самовниманием и сетями прямой связи. Для обучения MobileBERT сначала обучают специально разработанную модель учителя, модель BERT_LARGE с включённым обратным узким местом. Затем мы осуществляем перенос знаний от этого учителя к MobileBERT. Как и оригинальный BERT, MobileBERT является универсальным, то есть его можно универсально применять к различным задачам НЛП ниже по течению посредством простого точного настройки. Он обучается путём имитации слоя за слоем BERT с инвертированным узким местом.

MPNet — это метод предварительного обучения языковым моделям, который объединяет моделирование языка с маской (MLM) и моделирование языка с перестановкой (PLM) в одном представлении. Он учитывает зависимость между предсказанными токенами через переставленное моделирование языка. Систематическая оценка в различных областях. В этой работе мы предлагаем предварительное обучение больших моделей кодировщика-декодера на основе Transformer на массивных текстовых корпусах с новой самоконтролируемой целью. В PEGASUS важные предложения удаляются/маскируются из входного документа и генерируются вместе как одна выходная последовательность из оставшихся предложений, подобно экстрактивному резюме.

Мы оценили нашу лучшую модель PEGASUS по 12 задачам суммирования после обучения, охватывающим новости, науку, рассказы, инструкции, электронные письма, патенты и законодательные акты. Эксперименты показывают, что она достигает современного уровня производительности на всех 12 наборах данных для последующего использования, измеренных с помощью показателей ROUGE. Наша модель также демонстрирует удивительную производительность при небольшом объёме данных для суммирования, превосходя предыдущие современные результаты на 6 наборах данных всего с 1000 примерами. Наконец, мы подтвердили наши результаты с помощью человеческой оценки и показали, что сводки нашей модели достигают человеческих результатов на нескольких наборах данных.

Rouge-1 — быстрый старт. 59 SqueezeBERT — что компьютерное зрение может рассказать NLP об эффективных нейронных сетях?

SqueezeBERT — это эффективный архитектурный вариант BERT для обработки естественного языка, который использует сгруппированные свертки. Он очень похож на BERT-base, но с позиционными слоями прямой связи, реализованными в виде сверток, и сгруппированными свертками для многих слоев.

F1 — быстрый старт.

PaddleSpeech

Систематическая оценка в различных областях. В этой работе мы предлагаем предварительное обучение больших моделей кодировщика-декодера на основе Transformer на массивных текстовых корпусах с новой самоконтролируемой целью.

В PEGASUS важные предложения удаляются/маскируются из входного документа и генерируются вместе как одна выходная последовательность из оставшихся предложений, подобно экстрактивному резюме. Мы оценили нашу лучшую модель PEGASUS по 12 задачам суммирования после обучения, охватывающим новости, науку, рассказы, инструкции, электронные письма, патенты и законодательные акты.

Эксперименты показывают, что она достигает современного уровня производительности на всех 12 наборах данных для последующего использования, измеренных с помощью показателей ROUGE. Наша модель также демонстрирует удивительную производительность при небольшом объёме данных для суммирования, превосходя предыдущие современные результаты на 6 наборах данных всего с 1000 примерами.

Наконец, мы подтвердили наши результаты с помощью человеческой оценки и показали, что сводки нашей модели достигают человеческих результатов на нескольких наборах данных. 10. MultiBand MelGAN

В работе представлена модель MultiBand MelGAN, которая представляет собой неавторегрессионную свёрточную архитектуру прямого распространения для генерации аудиосигналов в рамках GAN-настройки. Архитектура представляет собой полностью свёрточную сеть прямого распространения с мел-спектрограммой в качестве входных данных и необработанным сигналом в качестве выходных. Поскольку мел-спектрограмма имеет временное разрешение, которое в 256 раз ниже, авторы используют набор транспонированных свёрточных слоёв для повышающей дискретизации входной последовательности. Каждый транспонированный свёрточный слой сопровождается набором остаточных блоков с расширяющимися свёртками. В отличие от традиционных GAN, генератор MultiBand MelGAN не использует глобальный вектор шума в качестве входных данных. Multi-band MelGAN: более быстрое формирование сигнала для высококачественного преобразования текста в речь

Multi-band MelGAN, или MB-MelGAN — это модель формирования сигнала, ориентированная на высококачественное преобразование текста в речь. Она улучшает оригинальный MelGAN несколькими способами. Во-первых, она увеличивает восприимчивое поле генератора, что, как доказано, полезно для генерации речи. Во-вторых, она заменяет потерю соответствия признаков потерей STFT с многоразрешающим подходом, чтобы лучше измерять разницу между поддельной и реальной речью. Наконец, MelGAN расширяется за счёт многополосной обработки: генератор принимает мел-спектрограммы в качестве входных данных и производит сигналы поддиапазонов, которые впоследствии суммируются обратно в полнодиапазонные сигналы в качестве входа дискриминатора.

WaveRNN: эффективный синтез аудиосигналов на основе нейронных сетей

Последовательные модели достигают передовых результатов в аудио-, визуальных и текстовых областях как в отношении оценки распределения данных, так и в отношении генерации высококачественных образцов. Однако эффективная выборка для этого класса моделей остаётся труднодостижимой задачей. Сосредоточившись на синтезе речи, мы описываем набор общих методов для сокращения времени выборки при сохранении высокого качества вывода.

Сначала мы описываем однослойную рекуррентную нейронную сеть, WaveRNN, с двойным слоем softmax, который соответствует качеству современной модели WaveNet. Компактная форма сети позволяет генерировать 24 кГц 16-битное аудио в 4 раза быстрее реального времени на GPU.

Во-вторых, мы применяем метод сокращения веса, чтобы уменьшить количество весов в WaveRNN. Мы обнаруживаем, что для постоянного количества параметров большие разреженные сети работают лучше, чем маленькие плотные сети, и эта зависимость сохраняется для уровней разрежённости выше 96%. Небольшое количество весов в разреженной WaveRNN позволяет выбирать высококачественные аудиоданные на мобильном процессоре в реальном времени.

Наконец, мы предлагаем новую схему генерации на основе субмасштабирования, которая сворачивает длинную последовательность в пакет более коротких последовательностей и позволяет одновременно генерировать несколько образцов. WaveRNN с субмасштабом генерирует 16 образцов за шаг без потери качества и предлагает ортогональный метод повышения эффективности выборки.

Style MelGAN: эффективный высококачественный состязательный вокодер с временной адаптивной нормализацией

В последние годы нейронные вокодеры превзошли классические подходы к генерации речи по естественности и перцептивному качеству синтезированной речи. Вычислительно тяжёлые модели, такие как WaveNet и WaveGlow, достигают наилучших результатов, в то время как лёгкие модели GAN, например, MelGAN и Parallel WaveGAN, остаются хуже с точки зрения перцептивного качества. Поэтому мы предлагаем Style MelGAN, лёгкий нейронный вокодер, позволяющий синтезировать высококачественную речь с низкой вычислительной сложностью.

Style MelGAN использует временную адаптивную нормализацию для стилизации низкоразмерного вектора шума акустическими характеристиками целевой речи. Для эффективного обучения несколько случайных оконных дискриминаторов состязательно оценивают речевой сигнал, анализируемый банком фильтров, со стабилизацией, обеспечиваемой потерей многомасштабной спектральной реконструкции. Высокопараллелизуемая генерация речи происходит в несколько раз быстрее реального времени на процессорах и графических процессорах. Тесты MUSHRA и P.800 показывают, что Style MelGAN превосходит предыдущие нейронные вокодеры в копировании синтеза и... Сценарии преобразования текста в речь.

CSMSC

Быстрое начало.

HiFi-GAN: Генеративные состязательные сети для эффективного синтеза речи с высоким качеством.

CSMSC

Быстрое начало.

В нескольких недавних работах по синтезу речи использовались генеративные состязательные сети (GAN) для получения необработанных сигналов. Хотя такие методы улучшают эффективность выборки и использование памяти, качество их образцов ещё не достигло качества авторегрессивных моделей и моделей на основе потоков. В этой работе мы предлагаем HiFi-GAN, который обеспечивает как эффективный, так и высококачественный синтез речи. Поскольку аудио речи состоит из синусоидальных сигналов с различными периодами, мы демонстрируем, что моделирование периодических паттернов звука имеет решающее значение для повышения качества образца. Субъективная оценка человека (средняя оценка мнения, MOS) набора данных одного динамика показывает, что предложенный нами метод демонстрирует сходство с человеческим качеством при генерации аудио с высокой точностью 22,05 кГц в 167,9 раз быстрее реального времени на одном графическом процессоре V100. Мы также показываем универсальность HiFi-GAN для инверсии мел-спектрограммы невидимых динамиков и сквозного синтеза речи. Наконец, версия HiFi-GAN небольшого размера генерирует образцы в 13,4 раза быстрее реального времени на процессоре с сопоставимым качеством с авторегрессивным аналогом.

ECAPA-TDNN: Уделение внимания каналу, распространение и агрегация в TDNN на основе верификации говорящего.

VoxCeleb12

Быстрое начало.

Современные методы проверки говорящего полагаются на нейронную сеть для извлечения характеристик говорящего. Успешная архитектура x-вектора представляет собой сеть задержки по времени (TDNN), которая применяет статистическое объединение для проецирования высказываний переменной длины в фиксированные по длине характеристики говорящего. В этой статье мы предлагаем несколько улучшений этой архитектуры, основанных на последних тенденциях в смежных областях проверки лица и компьютерного зрения. Во-первых, начальные слои кадра могут быть реструктурированы в одномерные модули Res2Net с важными пропусками соединений. Подобно SE-ResNet, мы вводим блоки сжатия и возбуждения в эти модули, чтобы явно моделировать взаимозависимости каналов. Блок SE расширяет временной контекст слоя кадра путём пересчёта каналов в соответствии с глобальными свойствами записи. Во-вторых, известно, что нейронные сети изучают иерархические функции, причём каждый слой работает на разных уровнях сложности. Чтобы использовать эту дополнительную информацию, мы объединяем и распространяем функции разных иерархических уровней. Наконец, мы улучшаем модуль статистического объединения с помощью внимания к кадру, зависящему от канала. Это позволяет сети фокусироваться на различных подмножествах кадров во время оценки статистики каждого канала. Предлагаемая архитектура ECAPA-TDNN значительно превосходит современные системы на основе TDNN в тестовых наборах VoxCeleb и в конкурсе распознавания говорящих VoxCeleb 2019.

MDTC: Система NPU для персонализированного голосового триггерного вызова 2020 года.

Эта статья описывает систему, разработанную командой NPU для персонализированной задачи голосового запуска 2020 года. Наша представленная система... Система состоит из двух независимо обученных подсистем: системы обнаружения ключевых слов (KWS) с малым размером и системы верификации диктора (SV).

Для системы KWS предлагается использовать многомасштабную расширенную сеть с временной свёрточной архитектурой (MDTC) для обнаружения ключевого слова (WuW). Система KWS предсказывает апостериорные вероятности того, содержит ли аудиофраза ключевое слово WuW, и одновременно оценивает местоположение WuW. Когда апостериорная вероятность WuW достигает заданного порога, система SV определяет информацию об идентичности активированного сегмента.

На наборе данных для оценки наша представленная система получает затраты на обнаружение 0,081 и 0,091 для задач близкого разговора и дальнего поля соответственно.

Примечание: в тексте запроса есть фрагменты, которые не удалось перевести, так как они содержат специальные символы или непечатаемые символы. Такотро́н 2

Эта статья описывает Такотрон 2, архитектуру нейронной сети для синтеза речи непосредственно из текста. Система состоит из рекуррентной сети последовательности к последовательности для предсказания признаков, которая отображает вложения символов в мел-спектрограммы, за которой следует модифицированная модель WaveNet, действующая как вокодер для синтеза волновых форм с временной областью из этих спектрограмм. Наша модель достигает среднего балла мнения (MOS) 4,53, что сопоставимо с MOS 4,58 для профессионально записанной речи.

Чтобы проверить наши проектные решения, мы представляем исследования основных компонентов нашей системы и оцениваем влияние использования мел-спектрограмм в качестве входных данных для WaveNet вместо лингвистических, продолжительности и F0 признаков. Мы также демонстрируем, что использование компактного акустического промежуточного представления позволяет значительно упростить архитектуру WaveNet.

LJSpeech

Быстрый старт

HiFi-GAN

HiFi-GAN: Генеративно-состязательные сети для эффективного и высококачественного синтеза речи

Несколько недавних работ по синтезу речи использовали генеративно-состязательные сети (GAN) для создания необработанных волновых форм. Хотя такие методы улучшают эффективность выборки и использование памяти, их качество выборки ещё не достигло качества авторегрессивных и основанных на потоках генеративных моделей. В этой работе мы предлагаем HiFi-GAN, который обеспечивает как эффективный, так и высококачественный синтез речи. Поскольку аудио речи состоит из синусоидальных сигналов с различными периодами, мы демонстрируем, что моделирование периодических паттернов звука имеет решающее значение для повышения качества выборки. Субъективная человеческая оценка (средний балл мнения, MOS) набора данных одного говорящего показывает, что предложенный нами метод демонстрирует сходство с человеческим качеством при генерации аудио с высокой точностью 22,05 кГц в 167,9 раз быстрее реального времени на одном графическом процессоре V100.

Мы также показываем универсальность HiFi-GAN для инверсии мел-спектрограмм невидимых динамиков и сквозного синтеза речи. Наконец, версия HiFi-GAN небольшого размера генерирует образцы в 13,4 раза быстрее реального времени на процессоре с качеством, сравнимым с авторегрессивным аналогом.

CSMSC

Быстрый старт

VITS

VITS: Условный вариационный автоэнкодер с состязательным обучением для сквозного преобразования текста в речь

Было предложено несколько недавних моделей сквозного преобразования текста в речь (TTS), которые позволяют проводить одноэтапное обучение и параллельную выборку, но их качество выборки не соответствует качеству двухэтапных систем TTS. В этой работе мы представляем параллельный метод сквозного TTS, который генерирует более естественное звучание аудио, чем текущие двухэтапные модели. Наш метод использует вариационное умозаключение, дополненное нормализованными потоками, и процесс состязательного обучения, который улучшает выразительную силу генеративного моделирования. Мы также предлагаем стохастический предиктор длительности для синтеза речи с разнообразными ритмами из входного текста. С учётом неопределённости моделирования скрытых переменных и стохастического предиктора длительности наш метод выражает естественное отношение «один ко многим», при котором входной текст может быть произнесён несколькими способами с разной высотой тона и ритмом. Субъективное человеческое оценивание (средний балл мнения или MOS) на LJ Speech, наборе данных одного говорящего, показывает, что наша модель превосходит существующие двухэтапные системы TTS по естественности звучания. Метод превосходит лучшие публично доступные системы TTS и достигает MOS, сопоставимого с эталонным.

CSMSC

Быстрый старт: https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/csmsc/vits

21. ERNIE-SAT

Абстракт:

Изучение представления речи улучшило как понимание речи, так и задачи синтеза речи для одного языка. Однако его способность в кросс-языковых сценариях не была исследована. В этой статье мы расширяем метод предварительного обучения для задач кросс-языкового многопользовательского синтеза речи, включая клонирование голоса нескольких пользователей и редактирование речи на нескольких языках.

Мы предлагаем структуру совместного предварительного обучения речи и текста, где мы случайным образом маскируем спектрограмму и фонемы, учитывая пример речи и его транскрипцию. Изучая восстановление замаскированных частей входных данных на разных языках, наша модель демонстрирует значительные улучшения по сравнению с методами синтеза речи нескольких пользователей на основе встраивания динамиков. Кроме того, наша структура является сквозной как для обучения, так и для вывода без каких-либо усилий по тонкой настройке.

В задачах клонирования голоса и редактирования речи на нескольких языках наша модель превосходит методы синтеза речи нескольких пользователей, основанные на встраивании динамиков. Код и модель общедоступны на PaddleSpeech.

Быстрый старт: https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/aishell3_vctk/ernie_sat

22. Whisper

Абстракт:

Мы изучаем возможности систем обработки речи, обученных просто предсказывать большое количество расшифровок аудио в интернете. При масштабировании до 680 000 часов многоязычного и многозадачного надзора полученные модели хорошо обобщаются на стандартные тесты и часто конкурентоспособны с предыдущими полностью контролируемыми результатами, но в условиях переноса без нуля, без необходимости какой-либо точной настройки. По сравнению с людьми модели приближаются к их точности и надёжности. Мы выпускаем модели и код вывода, чтобы служить основой для дальнейшей работы над надёжной обработкой речи.

LibriSpeech test-clean WER: 2,7%; в настоящее время не поддерживает обучение.

Быстрый старт: https://github.com/PaddlePaddle/PaddleSpeech

23. wav2vec2

Абстракт:

Впервые мы показываем, что изучение мощных представлений только из аудиоречи с последующей точной настройкой на транскрибированную речь может превзойти лучшие полуконтролируемые методы, будучи концептуально более простыми. wav2vec 2.0 маскирует речевой ввод в скрытом пространстве и решает контрастную задачу, определённую над квантованием скрытых представлений, которые совместно изучаются. Эксперименты с использованием всех помеченных данных Librispeech достигают 1,8/3,3 WER на чистых/других тестовых наборах. Когда объём помеченных данных снижается до одного часа, wav2vec 2.0 превосходит предыдущий уровень техники на подмножестве из 100 часов, используя при этом в 100 раз меньше помеченных данных. Использование всего лишь десяти минут помеченных данных и предварительное обучение на 53 тысячах часов немеченых данных всё ещё достигает 4,8/8,2 WER. Это демонстрирует возможность распознавания речи с ограниченным количеством помеченных данных. ### PaddleRec

Масштабируемость. Мы предлагаем использовать широкий набор функций для представления пользователей на основе их истории веб-браузинга и поисковых запросов.

Мы используем подход глубокого обучения, чтобы сопоставить пользователей и элементы с латентным пространством, где сходство между пользователями и их предпочтительными элементами максимизируется. Мы расширяем модель, чтобы совместно изучать функции элементов из разных доменов и пользовательские функции, вводя многомерную модель глубокого обучения.

Мы показываем, как сделать это представление пользователя на основе богатых функций масштабируемым путём уменьшения размерности входных данных и объёма обучающих данных. Представление пользователя на основе широких функций позволяет модели изучить соответствующие шаблоны поведения пользователей и дать полезные рекомендации пользователям, которые не взаимодействовали с сервисом, при условии наличия адекватной истории поиска и браузинга.

Сочетание различных доменов в единой модели для обучения помогает улучшить качество рекомендаций во всех доменах, а также иметь более компактный и семантически богатый вектор признаков пользователя.

Эксперименты с нашим подходом на трёх реальных системах рекомендаций, полученных из различных источников продуктов Microsoft: рекомендации приложений Windows, рекомендации новостей и рекомендации фильмов/телевидения, показывают, что наш подход значительно лучше современных алгоритмов (до 49% улучшения для существующих пользователей и 115% улучшения для новых пользователей).

Кроме того, эксперименты на открытом наборе данных также указывают на превосходство нашего метода по сравнению с переходными генеративными тематическими моделями для моделирования кросс-доменных рекомендательных систем. Анализ масштабируемости показывает, что наша модель DNN с несколькими видами может легко масштабироваться, охватывая миллионы пользователей и миллиарды записей элементов. Экспериментальные результаты также подтверждают, что объединение функций из всех доменов даёт гораздо лучшую производительность, чем построение отдельных моделей для каждого домена. Рекомендация на Tmall

Промышленные рекомендательные системы обычно состоят из этапа сопоставления и этапа ранжирования, чтобы обрабатывать миллиарды пользователей и элементов. Этап сопоставления извлекает элементы-кандидаты, релевантные интересам пользователя, в то время как этап ранжирования сортирует элементы-кандидаты по интересам пользователя. Таким образом, наиболее важной способностью является моделирование и представление интересов пользователя для любого этапа.

Большинство существующих моделей на основе глубокого обучения представляют одного пользователя в виде единого вектора, что недостаточно для отражения разнообразной природы интересов пользователя. В этой статье мы подходим к этой проблеме с другой точки зрения, представляя одного пользователя несколькими векторами, кодирующими различные аспекты интересов пользователя. Мы предлагаем сеть с множеством интересов и динамической маршрутизацией (MIND) для работы с разнообразными интересами пользователя на этапе сопоставления.

В частности, мы разрабатываем слой экстрактора с несколькими интересами на основе механизма капсульной маршрутизации, который применим для кластеризации исторического поведения и извлечения разнообразных интересов. Кроме того, мы создаём метод, называемый вниманием, основанным на метках, чтобы помочь изучить представление пользователя с помощью нескольких векторов.

Через обширные эксперименты на нескольких общедоступных контрольных показателях и одном крупномасштабном промышленном наборе данных от Tmall мы демонстрируем, что MIND может достичь превосходной производительности по сравнению с современными методами рекомендаций. В настоящее время MIND внедрён для обработки основного онлайн-трафика на главной странице мобильного приложения Tmall.

NCF

В последние годы глубокие нейронные сети достигли огромного успеха в распознавании речи, компьютерном зрении и обработке естественного языка. Однако исследование глубоких нейронных сетей в рекомендательных системах получило относительно меньше внимания. В этой работе мы стремимся разработать методы на основе нейронных сетей для решения ключевой проблемы в рекомендациях — совместной фильтрации — на основе неявной обратной связи.

Хотя некоторые недавние работы использовали глубокое обучение для рекомендаций, они в основном использовали его для моделирования вспомогательной информации, такой как текстовые описания элементов и акустические характеристики музыки. Когда дело доходит до моделирования ключевого фактора в совместной фильтрации — взаимодействия между функциями пользователя и элемента, они всё ещё прибегают к матричной факторизации и применяют внутреннее произведение к скрытым функциям пользователей и элементов.

Заменив внутреннее произведение нейронной архитектурой, которая может изучать произвольную функцию из данных, мы представляем общую структуру, называемую NCF, сокращённо от «Совместная фильтрация на основе нейронной сети». NCF является универсальным и может выражать и обобщать матричную факторизацию в своей структуре. Чтобы усилить моделирование NCF с нелинейностями, мы предлагаем использовать многослойный персептрон для изучения функции взаимодействия пользователя и элемента. Обширные эксперименты на двух реальных наборах данных показывают значительные улучшения предложенной нами структуры NCF по сравнению с существующими методами. Эмпирические данные показывают, что использование более глубоких слоёв нейронных сетей обеспечивает лучшую производительность рекомендаций.

Word2vec

Недавно представленная непрерывная модель Skip-gram является эффективным методом обучения высококачественным распределённым векторным представлениям слов и фраз и их композиционности. В этой статье мы представляем несколько расширений, которые улучшают как качество векторов, так и скорость обучения. Путем выборки частых слов мы получаем значительное ускорение, а также учимся более регулярным представлениям слов. Мы также описываем простую альтернативу иерархическому софтмаксу, называемую отрицательной выборкой.

Неотъемлемым ограничением представлений слов является их безразличие к порядку слов и неспособность представлять идиоматические фразы. Например, значения «Канада» и «Воздух» нельзя легко объединить, чтобы получить «Эйр Канада». Мотивированные этим примером, мы представляем простой метод поиска фраз в тексте и показываем, что возможно обучение хорошим векторным представлениям для миллионов фраз.

FastText

В этой статье рассматривается простой и эффективный базовый уровень для классификации текста. Наши эксперименты показывают, что наш быстрый текстовый классификатор FastText часто сравним с классификаторами глубокого обучения по точности и на много порядков быстрее для обучения и оценки. Мы можем обучить FastText более чем на одном миллиарде слов менее чем за десять минут, используя стандартный многоядерный процессор, и классифицировать полмиллиона предложений среди 312 классов менее чем за минуту.

Graph Neural Network

Проблема сеансовой рекомендации направлена на прогнозирование действий пользователя на основе анонимных сеансов. Предыдущие методы моделируют сеанс как последовательность и оценивают пользовательские представления помимо представлений элементов, чтобы давать рекомендации. Хотя достигнуты многообещающие результаты, они недостаточны для получения точных пользовательских векторов в сеансах и игнорирования сложных переходов элементов. Чтобы получить точное встраивание элементов и учесть сложные переходы элементов, мы предлагаем новый метод, то есть сеансовую рекомендацию с графическими нейронными сетями, SR-GNN для краткости. В предложенном методе последовательности сеансов моделируются как данные с графовой структурой. На основе графика сеанса GNN может захватывать сложные переходы элементов, которые трудно выявить с помощью предыдущих традиционных последовательных методов. Каждый сеанс затем представляется как композиция глобального предпочтения и текущего интереса этого сеанса с использованием сети внимания. Обширные эксперименты, проведённые на двух реальных наборах данных, показывают, что SR-GNN явно превосходит современные методы сеансовых рекомендаций.

GRU4Rec

Мы применяем рекуррентные нейронные сети (RNN) в новой области, а именно в рекомендательных системах. Реальные рекомендательные системы часто сталкиваются с проблемой необходимости основывать рекомендации только на коротких данных на основе сеансов (например, небольшой сайт спортивных товаров), а не на длинных историях пользователей (как в случае Netflix). В этой ситуации часто восхваляемая матричная факторизация... Архитектура, которая моделирует сочетание долгосрочных статических и краткосрочных временных пользовательских предпочтений для улучшения производительности рекомендаций.

Чтобы эффективно обучить модель для крупномасштабных приложений, мы предлагаем новый метод предварительного обучения, чтобы значительно сократить количество свободных параметров. Полученная модель применяется к реальному набору данных из коммерческой системы рекомендаций новостей. Мы сравниваем результаты с набором установленных базовых показателей, и экспериментальные результаты показывают, что наш метод значительно превосходит современные достижения.

Youtube_dnn

YouTube представляет собой одну из самых масштабных и сложных промышленных систем рекомендаций. В этой статье мы описываем систему на высоком уровне и фокусируемся на значительных улучшениях производительности, достигнутых благодаря глубокому обучению. Статья разделена в соответствии с классической двухэтапной дихотомией поиска информации: сначала мы подробно описываем модель генерации кандидатов глубокого обучения, а затем описываем отдельную модель ранжирования глубокого обучения. Мы также предоставляем практические уроки и идеи, полученные при разработке, итерации и поддержке массивной системы рекомендаций с огромным влиянием на пользователей.

BST

Методы глубокого обучения широко используются в промышленных системах рекомендаций (RS). Предыдущие работы используют парадигму Embedding&MLP: необработанные функции встраиваются в низкоразмерные векторы, которые затем подаются в MLP для окончательных рекомендаций. Однако большинство этих работ просто объединяют различные функции, игнорируя последовательную природу поведения пользователей. В этой статье мы предлагаем использовать мощную модель Transformer для захвата последовательных сигналов, лежащих в основе последовательностей поведения пользователей, для рекомендаций в Alibaba. Экспериментальные результаты демонстрируют превосходство предложенной модели, которая затем развёртывается онлайн на Taobao и обеспечивает значительное улучшение онлайн-показателей кликабельности (CTR) по сравнению с двумя базовыми показателями.

DCN

Разработка функций была ключом к успеху многих моделей прогнозирования. Тем не менее процесс нетривиален и часто требует ручного проектирования функций или исчерпывающего поиска. DNN способны автоматически изучать взаимодействия функций; однако они генерируют все взаимодействия неявно и не обязательно эффективны в изучении всех типов перекрёстных функций. В этой статье мы предлагаем Deep & Cross Network (DCN), которая сохраняет преимущества модели DNN и, кроме того, вводит новую перекрёстную сеть, более эффективную в изучении определённых взаимодействий функций ограниченной степени. В частности, DCN явно применяет пересечение функций на каждом слое, не требует ручного проектирования функций и добавляет незначительную дополнительную сложность к модели DNN. Наши экспериментальные результаты продемонстрировали её превосходство над современными алгоритмами на наборе данных прогнозирования CTR и плотных данных. Классификация датасета с точки зрения точности модели и использования памяти.

Criteo

Быстрое начало

DeepFM

Глубокая FM: нейронная сеть на основе факторных машин для прогнозирования CTR

В этой статье показано, что возможно разработать модель обучения «от начала до конца», которая подчёркивает как низкоуровневые, так и высокоуровневые взаимодействия признаков. Предлагаемая модель DeepFM сочетает в себе мощь факторных машин для рекомендаций и глубокого обучения для изучения признаков в новой архитектуре нейронной сети. По сравнению с последней моделью Wide & Deep от Google, DeepFM имеет общий вход для своих «широких» и «глубоких» частей, не требуя дополнительной обработки признаков помимо необработанных признаков. Проведены комплексные эксперименты, чтобы продемонстрировать эффективность и действенность DeepFM по сравнению с существующими моделями прогнозирования CTR как на эталонных данных, так и на коммерческих данных.

Criteo

Быстрое начало

DMR

Модель глубокого сопоставления для ранжирования для персонализированного прогнозирования CTR кликов

FFM

Машины факторизации, учитывающие поля, для прогнозирования CTR

Прогнозирование CTR играет важную роль в компьютерной рекламе. Модели, основанные на полиномиальных отображениях степени 2 и машинах факторизации (FM), широко используются для этой задачи. Недавно вариант FM, машины факторизации с учётом полей (FFM), превзошёл существующие модели в некоторых всемирных соревнованиях по прогнозированию CTR. Основываясь на нашем опыте победы в двух из них, в этой статье мы утверждаем FFM как эффективный метод классификации больших разреженных данных, включая данные из прогнозирования CTR. Во-первых, мы предлагаем эффективные реализации для обучения FFM. Затем мы всесторонне анализируем FFM и сравниваем этот подход с конкурирующими моделями. Эксперименты показывают, что FFM очень полезны для определённых задач классификации. Наконец, мы выпустили пакет FFM для общественного пользования.

Criteo

Быстрое начало

Факторные машины

В этой статье представлены факторные машины (FM) — новый класс моделей, который сочетает преимущества опорных векторных машин (SVM) с факторными моделями. Как и SVM, FM являются общим предиктором, работающим с любым вещественным векторным признаком. В отличие от SVM, FM моделируют все взаимодействия между переменными с использованием факторизованных параметров. Таким образом, они способны оценивать взаимодействия даже в задачах с огромной разреженностью (например, рекомендательные системы). Эксперты и их невозможно перечислить. Поэтому были предприняты усилия по поиску малоразмерных представлений разреженных и многомерных необработанных признаков и их значимых комбинаций. В этой статье мы предлагаем эффективный и действенный метод под названием AutoInt для автоматического изучения взаимодействий признаков высокого порядка входных признаков.

Наш предложенный алгоритм является очень общим, его можно применять как к числовым, так и к категориальным входным признакам. В частности, мы отображаем как числовые, так и категориальные признаки в одно и то же маломерное пространство. После этого предлагается многоголовая самовнимательная нейронная сеть с остаточными связями для явного моделирования взаимодействий признаков в маломерном пространстве. С помощью различных слоёв многоголовых самовнимательных нейронных сетей можно моделировать различные порядки комбинаций признаков входных признаков. Вся модель может быть эффективно подогнана к большим объёмам необработанных данных сквозным образом.

Экспериментальные результаты на четырёх реальных наборах данных показывают, что наш предложенный подход не только превосходит существующие современные подходы для прогнозирования, но также предлагает хорошую объяснимость. Код доступен по адресу: https://github.com/DeepGraphLearning/RecommenderSystems.

Факторизационные машины (FM) — это подход к обучению с учителем, который улучшает линейную регрессионную модель путём включения взаимодействий признаков второго порядка. Несмотря на эффективность, FM может быть затруднён из-за моделирования всех взаимодействий признаков с одинаковым весом, поскольку не все взаимодействия признаков одинаково полезны и предсказательны. Например, взаимодействия с бесполезными признаками могут даже вносить шумы и ухудшать производительность. В этой работе мы улучшаем FM, различая важность различных взаимодействий признаков. Мы предлагаем новую модель под названием Attentional Factorization Machine (AFM), которая изучает важность каждого взаимодействия признаков на основе данных через нейронную сеть внимания. Обширные эксперименты на двух реальных наборах данных демонстрируют эффективность AFM. Эмпирически показано, что на задаче регрессии AFM лучше, чем FM, с улучшением на 8,6%, и последовательно превосходит современные методы глубокого обучения Wide&Deep [Cheng et al., 2016] и DeepCross[Shan et al., 2016] с гораздо более простой структурой и меньшим количеством параметров модели. Наша реализация AFM доступна публично по адресу: https://github. com/hexiangnan/attentional factorization machine.

Вручную созданные комбинаторные признаки были секретным соусом многих успешных моделей. Однако для веб-масштаба разнообразие и объём признаков делают эти вручную созданные признаки дорогостоящими для создания, обслуживания и развёртывания. В этой статье предлагается модель Deep Crossing, которая представляет собой глубокую нейронную сеть, автоматически объединяющую признаки для получения превосходных моделей. Входными данными Deep Crossing является набор индивидуальных признаков, которые могут быть плотными или разреженными. Важные пересекающиеся признаки обнаруживаются неявно сетями, состоящими из слоя встраивания и укладки, а также каскада остаточных блоков. Deep Crossing — это... Реализовано с помощью инструмента моделирования Computational Network Tool Kit (CNTK), работающего на платформе с несколькими GPU.

Он смог построить с нуля две модели масштаба веб для крупного платного поискового движка и достичь превосходных результатов, используя лишь часть функций, используемых в производственных моделях. Это демонстрирует потенциал использования Deep Crossing в качестве общей парадигмы моделирования для улучшения существующих продуктов, а также для ускорения разработки новых моделей с долей инвестиций в разработку функций и приобретение глубоких знаний предметной области.

DIEN — Deep Interest Evolution Network для прогнозирования CTR.

Прогнозирование CTR, целью которого является оценка вероятности того, что пользователь кликнет по элементу, стало одной из основных задач в рекламной системе. Для модели прогнозирования CTR необходимо уловить скрытый интерес пользователя, стоящий за данными о поведении пользователя. Кроме того, учитывая изменение внешней среды и внутреннего познания, интерес пользователя динамически развивается со временем. Существует несколько методов прогнозирования CTR для моделирования интересов, но большинство из них рассматривают представление поведения как непосредственный интерес и не имеют специального моделирования скрытого интереса, стоящего за конкретным поведением. Более того, немногие работы учитывают тенденцию изменения интереса. В этой статье мы предлагаем новую модель под названием Deep Interest Evolution Network (DIEN) для прогнозирования CTR.

В частности, мы разрабатываем слой экстрактора интересов для захвата временных интересов из последовательности исторических действий. На этом слое мы вводим вспомогательную потерю для контроля извлечения интересов на каждом шаге. Поскольку интересы пользователей разнообразны, особенно в системе электронной коммерции, мы предлагаем слой эволюции интересов для захвата процесса эволюции интересов относительно целевого элемента. В слое эволюции интересов механизм внимания встраивается в последовательную структуру, и эффекты относительных интересов усиливаются во время эволюции интереса.

Эксперименты на публичных и промышленных наборах данных показывают, что DIEN значительно превосходит современные решения. Примечательно, что DIEN был внедрён в систему медийной рекламы Taobao и обеспечил улучшение CTR на 20,7 %.

DIN — Deep Interest Network для прогнозирования CTR.

Прогнозирование CTR является важной задачей в промышленных приложениях, таких как онлайн-реклама. Недавно были предложены модели на основе глубокого обучения, которые следуют аналогичной парадигме «Embedding&MLP». В этих методах крупномасштабные разреженные входные функции сначала отображаются в низкоразмерные векторы встраивания, а затем преобразуются в векторы фиксированной длины групповым способом, наконец, объединяются вместе и подаются в многослойный персептрон (MLP) для изучения нелинейных отношений между функциями. Таким образом, пользовательские функции сжимаются в вектор представления фиксированной длины, независимо от того, какие рекламные объявления являются кандидатами. Использование вектора фиксированной длины будет узким местом, которое затрудняет методам Embedding&MLP эффективно улавливать разнообразные интересы пользователя из богатого исторического поведения. Историческое поведение в отношении определённой рекламы. Этот вектор представления варьируется для разных реклам, значительно улучшая выразительную способность модели. Кроме того, мы разрабатываем две техники: регуляризацию с учётом мини-пакетов и функцию активации, адаптирующуюся к данным, которые могут помочь в обучении промышленных глубоких сетей с сотнями миллионов параметров. Эксперименты на двух общедоступных наборах данных, а также на реальном производственном наборе данных Alibaba с более чем 2 миллиардами образцов демонстрируют эффективность предложенных подходов, которые достигают превосходной производительности по сравнению с современными методами. DIN теперь успешно внедрён в систему онлайн-рекламы на платформе Alibaba, обслуживая основной трафик.

Amazon Electronics

Быстрый старт

FGCNN

Генерация признаков с помощью свёрточной нейронной сети для прогнозирования рейтинга кликов

Прогнозирование рейтинга кликов — важная задача в рекомендательных системах, которая направлена на оценку вероятности того, что пользователь нажмёт на данный элемент. В последнее время было предложено множество глубоких моделей для изучения взаимодействий признаков низкого и высокого порядка на основе исходных признаков. Однако, поскольку полезные взаимодействия всегда редки, DNN трудно эффективно изучить их при большом количестве параметров. В реальных сценариях искусственные признаки могут улучшить производительность глубоких моделей (таких как Wide & Deep Learning), но разработка признаков является дорогостоящей и требует знаний предметной области, что делает её непрактичной в различных сценариях. Поэтому необходимо автоматически дополнять пространство признаков. В этой статье мы предлагаем новую модель FGCNN с двумя компонентами: генерацией признаков и глубоким классификатором. Генерация признаков использует сильные стороны CNN для создания локальных паттернов и их рекомбинации для генерации новых признаков. Глубокий классификатор использует структуру IPNN для изучения взаимодействий в расширенном пространстве признаков. Результаты экспериментов на трёх крупномасштабных наборах данных показывают, что FGCNN значительно превосходит девять современных моделей. Более того, когда применяются некоторые современные модели в качестве глубокого классификатора, всегда достигается лучшая производительность, демонстрируя отличную совместимость нашей модели FGCNN. Эта работа исследует новое направление для прогнозов CTR: полезно уменьшить трудности обучения DNN путём автоматического определения важных признаков.

Criteo

Быстрый старт

Fibinet

Объединение важности признаков и билинейного взаимодействия признаков для прогнозирования рейтинга кликов

Реклама и ранжирование каналов важны для многих интернет-компаний, таких как Facebook и Sina Weibo. Среди множества реальных систем рекламы и ранжирования каналов прогнозирование рейтинга кликов (CTR) играет центральную роль. Существует множество предложенных моделей в этой области, таких как логистическая регрессия, древовидные модели, модели на основе факторизационных машин и модели CTR на основе глубокого обучения. Однако во многих текущих работах расчёт взаимодействий признаков выполняется простым способом, таким как произведение Адамара и внутреннее произведение, и они меньше заботятся о важности признаков. В этой статье предлагается новая модель под названием FiBiNET, сокращённо от Feature Importance и Bilinear feature Interaction NETwork, для динамического изучения важности признаков и детальных взаимодействий признаков. С одной стороны, FiBiNET может динамически изучать важность признаков через Squeeze-Excitation network (SENET) механизм

С другой стороны, он способен эффективно изучать взаимодействия признаков с помощью билинейной функции. Мы проводим обширные эксперименты на двух реальных наборах данных и показываем, что наша неглубокая модель превосходит другие неглубокие модели, такие как машина факторизации (FM) и полевая машина факторизации (FFM).

Чтобы ещё больше улучшить производительность, мы объединяем классический компонент глубокой нейронной сети (DNN) с неглубокой моделью, чтобы получить глубокую модель. Deep FiBiNET последовательно превосходит другие современные глубокие модели, такие как DeepFM и экстремальная глубокая машина факторизации (XdeepFM).

Criteo

Быстрый старт

FLEN

Системы прогнозирования рейтинга кликов (CTR) обычно основаны на многопольных категориальных признаках, то есть каждый признак является категориальным и принадлежит только одному полю. Моделирование сочетаний признаков имеет решающее значение для точности прогнозирования CTR. Однако это обычно требует огромного количества параметров для явного моделирования всех сочетаний признаков, что не масштабируется для реальных производственных систем.

В этой статье мы описываем новую сеть встраивания с использованием полей (FLEN), которая была развёрнута в коммерческих рекомендательных системах Meitu и обслуживает основной трафик. FLEN разрабатывает метод объединения взаимодействий по полям. Подходящим образом используя информацию о полях, слой объединения взаимодействий по полям улавливает как межполевые, так и внутриполевые сочетания признаков с небольшим количеством параметров модели и приемлемой сложностью времени для промышленных применений.

Мы показываем, что некоторые классические неглубокие модели CTR можно рассматривать как частные случаи этого метода, например, MF, FM и FwFM. Мы выявляем уникальную проблему в этом методе: модуль FM в нашей модели может страдать от проблемы связанного градиента, что ухудшает производительность модели. Чтобы решить эту проблему, мы разрабатываем Dicefactor: новый метод выпадения, который предотвращает совместную адаптацию независимых скрытых признаков. Обширные эксперименты, включая автономные оценки и онлайн-A/B тестирование на реальных производственных системах, демонстрируют эффективность и действенность FLEN по сравнению с современными моделями. В частности, по сравнению с предыдущей версией, развёрнутой в системе (то есть NFM), FLEN добился улучшения CTR на 5,19% при использовании 1/6 памяти и вычислительного времени.

Avazu

Быстрый старт

Прогнозирование ответов пользователей, таких как рейтинг кликов и коэффициент конверсии, имеет решающее значение во многих веб-приложениях, включая веб-поиск, персонализированные рекомендации и онлайн-рекламу. В отличие от непрерывных необработанных признаков, которые мы обычно находим в доменах изображений и аудио, входные признаки в веб-пространстве всегда являются многопольными и в основном дискретными и категориальными, в то время как их зависимости малоизвестны. Основные модели прогнозирования ответов пользователей должны либо ограничивать себя линейными моделями, либо требовать ручного создания высокоуровневых комбинированных признаков. Первое теряет способность исследовать взаимодействия признаков, а второе приводит к большим вычислениям в большом пространстве признаков. Чтобы решить проблему, мы предлагаем две новые модели с использованием глубоких нейронных сетей (DNN), чтобы автоматически изучать эффективные паттерны из взаимодействий категориальных признаков и прогнозировать клики пользователей по рекламе. Чтобы наши DNN эффективно работали, мы предлагаем использовать три метода преобразования признаков: машины факторизации (FM), ограниченные машины Больцмана (RBM) и шумоподавляющие автоэнкодеры (DAE). В этой статье представлена структура наших моделей и эффективные алгоритмы их обучения. Масштабные эксперименты с реальными данными показывают, что наши методы работают лучше, чем основные современные модели.

Criteo

Быстрый старт

NFM

Нейронные машины факторизации для разреженной прогнозной аналитики

Многие задачи прогнозирования в веб-приложениях требуют моделирования категориальных переменных, таких как идентификаторы пользователей и демографические данные, такие как пол и род занятий. Чтобы применить стандартные методы машинного обучения, эти категориальные предикторы всегда преобразуются в набор бинарных признаков с помощью однократного кодирования, что делает результирующий вектор признаков очень разреженным. Чтобы эффективно учиться на таких разреженных данных, крайне важно учитывать взаимодействия между признаками.

Yelp

Быстрый старт

PNN

Продуктовые нейронные сети для прогнозирования реакции пользователей

Прогнозирование реакции пользователей, такой как клики и конверсии, имеет большое значение и находит применение во многих веб-приложениях, включая рекомендательные системы, веб-поиск и онлайн-рекламу. Данные в этих приложениях в основном категоричны и содержат несколько полей; типичное представление заключается в преобразовании его в высокоразмерное разреженное двоичное представление признаков с помощью одноразового кодирования. Столкнувшись с крайней разреженностью, традиционные модели могут ограничить свою способность добывать неглубокие закономерности из данных, то есть комбинации признаков низкого порядка. С другой стороны, глубокие модели, такие как глубокие нейронные сети, не могут быть непосредственно применены к высокомерному входу из-за огромного пространства признаков. В этой статье мы предлагаем продуктовые нейронные сети (PNN) со слоем встраивания для изучения распределённого представления категориальных данных, слоем продукта для захвата интерактивных паттернов между межполевыми категориями и далее полностью связанными слоями для исследования взаимодействий признаков высокого порядка. Наши экспериментальные результаты на двух крупномасштабных реальных наборах данных о кликах по объявлениям демонстрируют, что PNN последовательно превосходят современные модели по различным показателям.

Criteo

Быстрый старт

ESMM

Модель многозадачного обучения всего пространства: эффективный подход к оценке коэффициента конверсии после клика

Точная оценка коэффициента конверсии (CVR) после клика имеет решающее значение для систем ранжирования в промышленных приложениях, таких как рекомендации и реклама. Традиционное моделирование CVR применяет популярные методы глубокого обучения и достигает современного уровня производительности. Однако на практике он сталкивается с несколькими специфическими проблемами, что затрудняет моделирование CVR. Например, обычные модели CVR обучаются на выборках нажатых показов, а используются для вывода на всём пространстве с выборками всех показов. Это вызывает проблему смещения выборки. Кроме того, существует проблема крайней разрежённости данных, что усложняет подгонку модели. TagSpace: семантические вложения из хэштегов

В работе рассматривается задача извлечения семантических вложений из данных, размеченных хэштегами. Авторы предлагают новый метод TagSpace для создания семантических представлений слов и фраз на основе их распределения по хэштегам в социальных сетях.

Метод основан на предположении, что слова и фразы, используемые в схожих контекстах с определёнными хэштегами, имеют близкие значения. Для построения семантических векторов авторы используют методы дистрибутивной семантики, такие как word2vec и GloVe.

Для оценки качества полученных семантических векторов используются стандартные метрики, такие как точность, полнота и F-мера. Результаты экспериментов показывают, что метод TagSpace превосходит другие методы семантического анализа, основанные на хэштегах.

Авторы также проводят анализ полученных семантических пространств и демонстрируют их применимость для различных задач, таких как поиск похожих тегов, определение тематики текста и классификация документов. Абстракт

Мы описываем свёрточную нейронную сеть, которая изучает представления признаков для коротких текстовых сообщений с использованием хэштегов в качестве контролируемого сигнала. Предлагаемый подход обучается на 5,5 миллиардах слов, предсказывая 100 000 возможных хэштегов. Помимо высокой эффективности в самой задаче предсказания хэштегов, мы показываем, что его изученное представление текста (игнорируя метки хэштегов) полезно и для других задач. С этой целью мы представляем результаты по задаче рекомендации документов, где он также превосходит ряд базовых показателей.

ag_news

Быстрый старт

Textcnn

Абстракт

Мы сообщаем о серии экспериментов со свёрточными нейронными сетями (CNN), обученными поверх предварительно обученных векторов слов для задач классификации на уровне предложений. Мы показываем, что простая CNN с небольшой настройкой гиперпараметров и статическими векторами достигает отличных результатов на нескольких тестах. Обучение специфичным для задачи векторам посредством точной настройки даёт дополнительные улучшения в производительности. Кроме того, мы предлагаем простую модификацию архитектуры, позволяющую использовать как специфичные для задачи, так и статические векторы. Модели CNN, обсуждаемые здесь, улучшают состояние искусства на 4 из 7 задач, включая анализ настроений и классификацию вопросов.

Senta

Быстрый старт

DIFM

Абстракт

Факторизационные машины (FM) относятся к классу общих предикторов, работающих с вещественнозначными векторами признаков, которые хорошо известны своей способностью оценивать параметры модели при значительной разрежённости и нашли успешное применение во многих областях, таких как прогнозирование показателя кликабельности (CTR). Однако стандартные FM производят только одно фиксированное представление для каждого признака в разных входных экземплярах, что может ограничивать выразительную и прогностическую силу модели CTR. Вдохновлённые успехом Input-aware Factorization Machines (IFMs), которые стремятся изучить более гибкие и информативные представления данного признака в соответствии с различными входными экземплярами, мы предлагаем новую модель под названием Dual Input-aware Factorization Machines (DIFMs), которая может адаптивно перераспределять исходные представления признаков на битовом и векторном уровнях одновременно. Более того, DIFMs стратегически интегрируют различные компоненты, включая Multi-Head Self-Attention, Residual Networks и DNNs, в единую сквозную модель. Всесторонние эксперименты на двух реальных наборах данных прогнозирования CTR показывают, что модель DIFM может последовательно превосходить несколько современных моделей.

criteo

Быстрый старт

BERT4Rec

Абстракт Моделирование динамических и эволюционирующих предпочтений пользователей на основе их исторического поведения является сложной задачей и имеет решающее значение для рекомендательных систем. Предыдущие методы используют последовательные нейронные сети (например, рекуррентные нейронные сети) для кодирования исторических взаимодействий пользователей слева направо в скрытые представления для выработки рекомендаций. Хотя эти методы достигают удовлетворительных результатов, они... Часто предполагают строго упорядоченную последовательность, что не всегда практично. Мы утверждаем, что такие однонаправленные архитектуры слева направо ограничивают возможности представления исторической последовательности. Для этой цели мы представляем Bidirectional Encoder Representations from Transformers для последовательной Рекомендации (BERT4Rec).

Однако совместное использование левого и правого контекста в глубокой двунаправленной модели сделает обучение тривиальным, поскольку каждый элемент может косвенно «видеть целевой элемент». Чтобы решить эту проблему, мы обучаем двунаправленную модель с использованием задачи Cloze, предсказывая замаскированные элементы в последовательности путём совместного использования их левого и правого контекстов. По сравнению с предсказанием следующего элемента в каждой позиции последовательности, задача Cloze может создать больше образцов для обучения более мощной двунаправленной модели.

Обширные эксперименты на четырёх эталонных наборах данных показывают, что наша модель последовательно превосходит различные современные последовательные модели.

Красота

Быстрый старт

FAT_DeepFFM

FAT-DeepFFM: Field Attentive Deep Field-aware Factorization Machine

Абстрактный

Оценка клика (CTR) является фундаментальной задачей в персонализированной рекламе и рекомендательных системах. В последние годы наблюдается успех как моделей глубокого обучения, так и механизма внимания в различных задачах компьютерного зрения (CV) и обработки естественного языка (NLP). Как объединить механизм внимания с моделью глубокого CTR — это перспективное направление, потому что оно может объединить преимущества обеих сторон. Хотя некоторые модели CTR, такие как Attentional Factorization Machine (AFM), были предложены для моделирования веса признаков взаимодействия второго порядка, мы полагаем, что оценка важности признаков перед явной процедурой взаимодействия признаков также важна для задач прогнозирования CTR, поскольку модель может научиться выборочно выделять информативные признаки и подавлять менее полезные, если задача имеет много входных признаков.

В этой статье мы предлагаем новую нейронную модель CTR под названием Field Attentive Deep Field-aware Factorization Machine (FAT-DeepFFM), объединив Deep Field-aware Factorization Machine (DeepFFM) с механизмом внимания сети Compose-Excitation (CENet), который предложен нами как улучшенная версия Squeeze-Excitation network (SENet) для выделения важности признаков. Мы проводим обширные эксперименты на двух реальных наборах данных, и результаты экспериментов показывают, что FAT-DeepFFM достигает наилучшей производительности и получает различные улучшения по сравнению с современными методами. Мы также сравниваем два типа механизмов внимания (внимание перед явным взаимодействием признаков и внимание после явного взаимодействия признаков) и демонстрируем, что первый значительно превосходит второй.

Критео

Быстрый старт

DeepRec

DeepRec: инструментарий с открытым исходным кодом для рекомендаций на основе глубокого обучения

Абстрактный

Системы рекомендаций на основе глубокого обучения активно исследуются в последние годы. Однако большое количество моделей, предлагаемых каждый год, представляет собой серьёзную проблему как для исследователей, так и для практиков при воспроизведении результатов для дальнейших сравнений. Хотя часть статей предоставляет исходный код, они используют разные языки программирования или разные пакеты глубокого обучения, что также усложняет понимание идей. Чтобы решить эту проблему, мы выпустили проект с открытым исходным кодом: DeepRec. В этом наборе инструментов мы реализовали ряд алгоритмов рекомендаций на основе глубокого обучения с использованием Python и широко используемых пакетов глубокого обучения. Изучение пакета — Tensorflow.

Были рассмотрены три основных сценария рекомендаций: прогнозирование рейтинга, ранжирование топ-N (ранжирование элементов) и последовательные рекомендации. DeepRec сохраняет хорошую модульность и расширяемость для лёгкого включения новых моделей в структуру.

Распространяется на условиях Стандартной общественной лицензии GNU. Исходный код доступен на GitHub по ссылке: \url{https://github.com/cheungdaven/DeepRec}.

Netflix

Быстрый старт

ENSFM

Эффективные несемплированные машины факторизации для оптимальной контекстной рекомендации.

Чтобы обеспечить более точную рекомендацию, актуальной темой является выход за рамки моделирования взаимодействий между пользователями и элементами и учёт контекстных функций. Машины факторизации (FM) с отрицательной выборкой являются популярным решением для контекстно-зависимых рекомендаций. Однако они не являются надёжными, поскольку выборка может потерять важную информацию и обычно приводит к неоптимальным результатам на практике.

Несколько недавних исследований улучшили FM с помощью глубоких обучающих архитектур для моделирования взаимодействий признаков высокого порядка. Хотя они либо фокусируются только на задаче прогнозирования рейтинга, либо обычно применяют стратегию отрицательной выборки для оптимизации производительности ранжирования. Из-за резкого колебания выборки разумно утверждать, что эти методы FM на основе выборки всё ещё неоптимальны для контекстной рекомендации. В этой статье предлагается изучить FM без выборки для задач ранжирования, которые особенно помогают контекстным рекомендациям. Несмотря на эффективность, такая стратегия без выборки представляет серьёзную проблему для эффективности обучения модели. Соответственно, мы также разрабатываем новую идеальную структуру под названием «Эффективные несемплированные машины факторизации» (ENSFM).

ENSFM не только плавно связывает отношения между FM и матричной факторизацией (MF), но и решает сложную проблему эффективности с помощью новых стратегий запоминания. Через обширные эксперименты на трёх реальных публичных наборах данных мы показываем, что 1) предложенный ENSFM последовательно и значительно превосходит современные методы контекстной Top-K рекомендации и 2) ENSFM достигает значительных преимуществ в эффективности обучения, что делает его более применимым к реальным крупномасштабным системам. Более того, эмпирические результаты показывают, что правильный метод обучения даже важнее, чем продвинутые структуры нейронных сетей для задачи Top-K рекомендаций. Наша реализация была выпущена, чтобы облегчить дальнейшее развитие эффективных методов без выборки.

ml-1m

Быстрый старт.

TiSAS

Самовнимание, учитывающее временные интервалы, для последовательных рекомендаций.

Последовательные рекомендательные системы стремятся использовать порядок взаимодействий пользователей, чтобы предсказать их следующее действие на основе контекста того, что они недавно сделали. Традиционно использовались марковские цепи (MCs), а в последнее время — рекуррентные нейронные сети (RNNs) и самовнимание (SA), благодаря их способности улавливать динамику последовательных паттернов. Однако большинство этих моделей делают упрощающее предположение, рассматривая истории взаимодействия как упорядоченные последовательности, не учитывая временные интервалы между каждым взаимодействием (то есть они моделируют временной порядок, но не фактическую временную метку). В этой статье мы стремимся явно смоделировать временные метки взаимодействий в рамках последовательного моделирования, чтобы исследовать влияние различных временных интервалов на прогноз следующего элемента. Мы предлагаем TiSASRec (последовательные рекомендации на основе самовнимания с учётом временных интервалов), который моделирует... как абсолютные позиции элементов, так и временные интервалы между ними в последовательности. Обширные эмпирические исследования показывают особенности TiSASRec при различных настройках и сравнивают производительность самовнимания с различными позиционными кодировками. Кроме того, экспериментальные результаты показывают, что наш метод превосходит различные современные последовательные модели как для разреженных, так и для плотных наборов данных и различных метрик оценки.

Полезен с точки зрения точности рекомендаций.

Автоматическое определение взаимодействия функций достигается за счёт прогнозирования границ с регуляризацией активации L0. Наша предложенная модель доказала свою эффективность благодаря принципу информационной узкости и теории статистического взаимодействия. Экспериментальные результаты показывают, что наша модель:

(i) превосходит существующие базовые показатели с точки зрения точности;
(ii) автоматически определяет полезные взаимодействия функций.

57 MetaHeac

В рекомендательных системах и рекламных платформах маркетологи всегда хотят доставлять продукты, контент или рекламу потенциальной аудитории через медиаканалы, такие как дисплей, видео или социальные сети. Учитывая набор аудиторий или клиентов (начальных пользователей), метод расширения аудитории (моделирование похожих пользователей) является многообещающим решением для выявления большего числа потенциальных аудиторий, которые похожи на начальных пользователей и, вероятно, завершат бизнес-цель целевой кампании. Однако моделирование похожих пользователей сталкивается с двумя проблемами:

На практике компания может ежедневно запускать сотни маркетинговых кампаний для продвижения различного контента в совершенно разных категориях, таких как спорт, политика, общество. Таким образом, трудно использовать общий метод для расширения аудитории для всех кампаний.
Начальный набор определённой кампании может охватывать только ограниченное количество пользователей. Поэтому индивидуальный подход, основанный на таком начальном наборе, скорее всего, будет переобучен.

В этой статье, чтобы решить эти проблемы, мы предлагаем новую двухэтапную структуру под названием Meta Hybrid Experts and Critics (MetaHeac), которая была внедрена в систему поиска похожих пользователей WeChat. На этапе офлайн обучается общая модель, которая может фиксировать отношения между различными задачами, с точки зрения метаобучения на всех существующих задачах кампании. На онлайн-этапе для новой кампании индивидуальная модель изучается с заданным начальным набором на основе общей модели. Согласно экспериментам как в автономном, так и в онлайн-режиме, предложенный MetaHeac демонстрирует превосходную эффективность как для кампаний по продвижению контента в рекомендательных системах, так и для рекламных кампаний на рекламных платформах. Кроме того, MetaHeac был успешно внедрён в WeChat для продвижения как контента, так и рекламы, что привело к значительному улучшению качества маркетинга. Код доступен по адресу https://github.com/easezyc/MetaHeac.

Lookalike / AUC = 0,71

58 DSIN

Глубокая сеть интересов сеанса для прогнозирования показателя кликов.

Ali_Display_Ad_Click / AUC = 0,635

59 AITM

Моделирование последовательной зависимости между многошаговыми конверсиями аудитории с помощью многозадачного обучения в целевой медийной рекламе.

В большинстве реальных крупномасштабных онлайн-приложений (например, электронная коммерция или финансы) привлечение клиентов обычно представляет собой многоэтапный процесс конверсии аудитории. Например, процесс «показ → клик → покупка» обычно выполняется для аудитории платформ электронной коммерции. Однако привлечь клиентов в финансовой рекламе (например, реклама кредитных карт) сложнее, чем в традиционной рекламе. С одной стороны, многоэтапное преобразование аудитории в финансовой рекламе происходит реже, чем в других типах рекламы. С другой стороны, стоимость привлечения клиентов в финансовой рекламе обычно выше, чем в других видах рекламы. Путь конверсии длиннее. С другой стороны, положительная обратная связь становится всё реже (дисбаланс классов), и из-за отложенной обратной связи активации трудно получить окончательную положительную обратную связь. В этом направлении типичным решением является многозадачное обучение. Хотя в этом направлении были предприняты значительные усилия по многозадачности, давней проблемой остаётся то, как явно смоделировать последовательную зависимость длинного пути между многоэтапными конверсиями аудитории для улучшения сквозной конверсии.

В этой статье мы предлагаем структуру Adaptive Information Transfer Multi-task (AITM), которая моделирует последовательную зависимость между многоступенчатыми конверсиями аудитории с помощью модуля Adaptive Information Transfer (AIT). Модуль AIT может адаптивно изучать, какую информацию и в каком объёме передавать на разных этапах конверсии. Кроме того, комбинируя Behavioral Expectation Calibrator в функции потерь, структура AITM может обеспечить более точное определение сквозной конверсии. Предложенная структура развёрнута в приложении Meituan, которое использует её для своевременного показа баннера аудитории с высоким уровнем сквозной конверсии для кобрендинговых кредитных карт Meituan. Результаты офлайн-экспериментов как на промышленных, так и на общедоступных реальных наборах данных ясно показывают, что предложенная структура значительно превосходит современные базовые показатели.

60. IPRec: пакетные рекомендации с внутрипакетными и межпакетными сетями внимания.

С ростом популярности онлайн-социальных сетей в мобильном интернете важную роль в получении информации пользователями стал играть новый сценарий рекомендаций, где пользователям рекомендуются не отдельные элементы или списки элементов, а комбинации разнородных и разнообразных объектов (называемых пакетом, например, пакет, включающий новости, издателя и друзей, просматривающих новости). В отличие от традиционных рекомендаций, когда пользователям рекомендуют сам элемент, в рекомендациях пакета пользователи проявляют большой интерес к явно отображаемым объектам, которые могут оказать значительное влияние на поведение пользователей. Однако, насколько нам известно, для рекомендаций пакетов было приложено мало усилий, и существующие подходы едва ли могут моделировать сложные взаимодействия разнообразных объектов в пакете. Таким образом, в этой статье мы впервые изучаем рекомендации пакетов и предлагаем сеть внимания внутри пакета и между пакетами для рекомендаций пакета (IPRec).

Для моделирования пакета предлагается сеть внимания внутри пакета для захвата объектно-ориентированного намерения пользователя взаимодействовать с пакетом, в то время как сеть внимания между пакетами действует как кодировщик информации на уровне пакета, который фиксирует совместные функции соседних пакетов. Кроме того, чтобы уловить представление предпочтений пользователей, мы представляем учащегося предпочтений пользователей, оснащённого сетью агрегации мелкозернистых функций и сетью агрегации крупнозернистых пакетов. Обширные эксперименты на трёх реальных наборах данных демонстрируют, что IPRec значительно превосходит современное состояние искусства. Более того, анализ модели демонстрирует интерпретируемость нашего IPRec и характеристики поведения пользователей. Коды и наборы данных можно получить по адресу https://github.com/LeeChenChen/IPRec.

61. KIM: персонализированные рекомендации новостей с учётом знаний и интерактивным сопоставлением.

Наиболее важной задачей в... Персонализированные рекомендации новостей: точное соответствие между новостями-кандидатами и интересами пользователей

Точное соответствие между новостями-кандидатами и интересами пользователя — это точное сопоставление между потенциальными новостями и интересами пользователя. Большинство существующих методов рекомендаций новостей моделируют новости-кандидаты на основе их текстового содержания, а интересы пользователей — на основе новостей, которые они уже просматривали, независимо друг от друга. Однако новостная статья может охватывать несколько аспектов и сущностей, и у пользователя обычно есть разные виды интересов. Независимое моделирование новостей-кандидатов и интересов пользователей может привести к недостаточному соответствию между новостями и пользователями. В этой статье мы предлагаем метод интерактивного сопоставления, основанный на знаниях, для рекомендаций новостей. Наш метод интерактивно моделирует новости-кандидаты и интересы пользователей, чтобы облегчить их точное сопоставление. Мы разрабатываем кодер новостей, учитывающий знания, чтобы интерактивно изучать представления как для просмотренных новостей, так и для новостей-кандидатов, фиксируя их взаимосвязь как в семантическом, так и в сущностном плане с помощью графов знаний. Мы также разрабатываем пользовательский кодер новостей для изучения представления интересов пользователя, учитывающего новости-кандидаты, и представления новостей-кандидатов с учётом интересов пользователя для лучшего соответствия интересов. Эксперименты на двух реальных наборах данных подтверждают, что наш метод может эффективно улучшить производительность рекомендаций новостей.

AutoInt: автоматическое обучение взаимодействию функций с помощью самовнимательных нейронных сетей

Прогнозирование количества кликов (CTR), которое направлено на прогнозирование вероятности того, что пользователь нажмёт на объявление или элемент, имеет решающее значение для многих онлайн-приложений, таких как онлайн-реклама и рекомендательные системы. Проблема очень сложна, поскольку (1) входные функции (например, идентификатор пользователя, возраст пользователя, идентификатор элемента, категория элемента) обычно разрежены и имеют высокую размерность, и (2) эффективное прогнозирование зависит от высокоуровневых комбинаторных функций (также известных как перекрёстные функции), которые очень трудоёмко создавать вручную экспертами в предметной области и невозможно перечислить. Поэтому предпринимаются усилия по поиску низкоразмерных представлений разреженных и высокоразмерных необработанных функций и их значимых комбинаций. В этой статье мы представляем эффективный и действенный метод под названием AutoInt для автоматического изучения высокоуровневых взаимодействий функций входных данных. Предлагаемый нами алгоритм является очень общим и может применяться как к числовым, так и к категориальным входным данным. В частности, мы отображаем как числовые, так и категориальные функции в одно и то же низкоразмерное пространство. После этого предлагается многоголовая самовнимательная нейронная сеть с остаточными связями для явного моделирования взаимодействий признаков в низкоразмерном пространстве. С разными уровнями многоголовой самовнимательной нейронной сети можно смоделировать различные порядки комбинаций функций входных данных. Вся модель может быть эффективно подогнана к крупномасштабным необработанным данным сквозным образом. Результаты экспериментов на четырёх реальных наборах данных показывают, что предложенный нами подход не только превосходит существующие современные подходы к прогнозированию, но и обеспечивает хорошую объяснимость. Код доступен по адресу: https://github.com/DeepGraphLearning/RecommenderSystems.

DPIN: глубокая позиционно-зависимая сеть взаимодействия для прогнозирования CTR

К сожалению, не удалось найти информацию о статье DPIN: Deep Position-wise Interaction Network for CTR Prediction. Возможно, это связано с тем, что в запросе нет прямого упоминания этой статьи. Быстрый старт

Prioritized DQN
- Приоритетное воспроизведение опыта позволяет агентам обучения с подкреплением запоминать и повторно использовать опыт из прошлого. В предыдущей работе переходы опыта равномерно выбирались из памяти воспроизведения. Однако такой подход просто воспроизводит переходы с той же частотой, с которой они были изначально получены, независимо от их значимости. В этой статье мы разрабатываем структуру для определения приоритетности опыта, чтобы более часто воспроизводить важные переходы и, следовательно, учиться более эффективно. Мы используем приоритетное воспроизведение опыта в глубоких Q-сетях (DQN), алгоритме обучения с подкреплением, который достиг уровня производительности человека во многих играх Atari. DQN с приоритетным воспроизведением опыта достигает нового состояния искусства, превосходя DQN с равномерным воспроизведением на 41 из 49 игр.
PPO Мы предлагаем новое семейство методов градиента политики для обучения с подкреплением, которые чередуются между выборкой данных через взаимодействие со средой и оптимизацией «суррогатной» целевой функции с использованием стохастического градиентного подъёма. В то время как стандартные методы градиента политики выполняют одно обновление градиента на образец данных, мы предлагаем новую целевую функцию, которая позволяет выполнять несколько эпох мини-пакетных обновлений. Новые методы, которые мы называем проксимальной оптимизацией политики (PPO), имеют некоторые преимущества оптимизации политики доверительной области (TRPO), но они гораздо проще в реализации, более общие и имеют лучшую сложность выборки (эмпирически). Наши эксперименты проверяют PPO на наборе эталонных задач, включая моделирование роботизированного передвижения и игру Atari, и мы показываем, что PPO превосходит другие онлайн-методы градиента политики и в целом обеспечивает благоприятный баланс между сложностью выборки, простотой и временем работы.
GA3C Без дополнительной информации о содержании статьи, невозможно предоставить перевод.
SAC Методы глубокого обучения с подкреплением без модели были продемонстрированы на ряде сложных задач принятия решений и управления. Однако эти методы обычно страдают от двух основных проблем: очень высокой сложности выборки и хрупких свойств сходимости, которые требуют тщательной настройки гиперпараметров. Обе эти проблемы серьёзно ограничивают применимость таких методов к сложным реальным областям. В этой статье мы предлагаем мягкого критика-актёра, метод глубокого обучения с подкреплением вне политики, основанный на структуре обучения с максимальным усилением энтропии. В этой структуре актёр стремится максимизировать ожидаемое вознаграждение, а также максимизировать энтропию. То есть, чтобы успешно выполнить задачу, действуя максимально случайным образом. Предыдущие методы глубокого обучения с подкреплением на основе этой структуры были сформулированы как методы Q-обучения. Сочетая обновления вне политики со стабильной стохастической формулировкой актёра-критика, наш метод достигает современного уровня производительности на ряде непрерывных контрольных задач. Превосходя предыдущие методы on-policy и off-policy. Кроме того, мы демонстрируем, что в отличие от других алгоритмов off-policy, наш подход очень стабилен, достигая очень схожей производительности при различных случайных начальных значениях.

Вознаграждение.

Быстрый старт.

IMPALA

В этой работе мы стремимся решить большой набор задач с помощью одного агента обучения с подкреплением с одним набором параметров. Ключевая задача — справиться с возросшим объёмом данных и увеличенным временем обучения. Мы разработали новый распределённый агент IMPALA (Архитектура актёра-ученика с взвешиванием по важности), который не только более эффективно использует ресурсы при обучении на одном компьютере, но и масштабируется до тысяч машин без ущерба для эффективности использования данных или ресурсов. Мы достигаем стабильного обучения при высокой пропускной способности, комбинируя раздельное действие и обучение с новым методом коррекции политики вне политики, называемым V-trace. Мы демонстрируем эффективность IMPALA для многозадачного обучения с подкреплением на DMLab-30 (набор из 30 задач из среды DeepMind Lab (Beattie et al., 2016)) и Atari-57 (все доступные игры Atari в Arcade Learning Environment (Bellemare et al., 2013a)). Наши результаты показывают, что IMPALA способен достичь лучшей производительности, чем предыдущие агенты, используя меньше данных, и, что особенно важно, демонстрирует положительный перенос между задачами благодаря своему многозадачному подходу.

Вознаграждение. Быстрый старт.

DDPG

Мы адаптируем идеи, лежащие в основе успеха Deep Q-Learning, к области непрерывных действий. Представляем алгоритм актёра-критика без модели, основанный на детерминированном градиенте политики, который может работать в пространствах непрерывных действий. Используя тот же алгоритм обучения, архитектуру сети и гиперпараметры, наш алгоритм надёжно решает более 20 смоделированных физических задач, включая классические проблемы, такие как подъём маятника, ловкое манипулирование, передвижение на ногах и вождение автомобиля. Наш алгоритм способен находить политики, производительность которых сопоставима с политиками, найденными алгоритмом планирования с полным доступом к динамике предметной области и её производным. Кроме того, мы показываем, что для многих задач алгоритм может изучать политики от начала до конца: непосредственно из необработанных входных данных пикселей.

Вознаграждение. Быстрый старт.

PolicyGradient

REINFORCE — это вариант Монте-Карло алгоритма градиента политики в обучении с подкреплением.

Вознаграждение. Быстрый старт.

NeurIPS2019-Learn-to-Move-Challenge

(Нет ссылки.)

TD3

Приближение функций и ошибки в методах актёра-критика.

В работе, основанной на ценности... Методы обучения с подкреплением, такие как глубокое Q-обучение, ошибки аппроксимации функций приводят к завышенным оценкам значений и неоптимальным стратегиям. Мы показываем, что эта проблема сохраняется в настройке «актёр-критик» и предлагаем новые механизмы для минимизации её влияния на актёра и критика.

Наш алгоритм основан на двойном Q-обучении, беря минимальное значение между парой критиков, чтобы ограничить завышение оценки. Мы проводим связь между целевыми сетями и смещением завышения оценки и предлагаем задерживать обновления политики, чтобы уменьшить ошибку каждого обновления и дополнительно улучшить производительность.

Мы оцениваем наш метод на наборе задач OpenAI gym, превосходя современные достижения в каждой протестированной среде. considers action policies of other agents and is able to successfully learn policies that require complex multi-agent coordination.

Дополнительно мы представляем режим обучения, использующий ансамбль политик для каждого агента, что приводит к более надёжным политикам для работы с несколькими агентами. Мы показываем силу нашего подхода по сравнению с существующими методами в кооперативных, а также конкурентных сценариях, где популяции агентов способны обнаруживать различные стратегии физической и информационной координации.

reward

быстрое начало

AlphaZero

Обучение игре в Отелло без человеческих знаний.

Игра в игры является популярной областью в области искусственного интеллекта. Большинство агентов в литературе имеют созданные вручную функции и часто обучаются на наборах данных, полученных от опытных людей. Мы реализуем алгоритм самообучения, основанный на нейронных сетях для оценки политики и улучшении политики поиска по дереву Монте-Карло, без использования человеческих знаний, который учится играть в Отелло. Мы оцениваем наш алгоритм обучения для 6x6 и 8x8 версий игры Отелло. Наша работа сравнивается со случайными и жадными базовыми показателями, а также минимаксным агентом, который использует созданную вручную функцию оценки, и достигает впечатляющих результатов. Кроме того, наш агент для версии Отелло 6x6 легко превосходит людей при тестировании против него.

reward

Быстрое начало

CARLA_SAC

Мягкий критик-актёр: внеполитическое максимальное энтропийное глубокое обучение с подкреплением со стохастическим актёром.

Reward

Быстрое начало

NeurIPS2020 L2RPN Challenge

Оптимизация политики на основе набора действий для безопасного управления энергосетями.

Поддержание стабильности современной энергосистемы становится всё более сложным из-за колебаний потребления энергии, нестабильного энергоснабжения от возобновляемых источников энергии и непредсказуемых аварий, таких как техногенные и стихийные бедствия. Поскольку эксплуатация энергосистемы должна учитывать её влияние на будущую стабильность, для обеспечения последовательного принятия решений в управлении энергосистемой используется обучение с подкреплением (RL). Однако существующие методы не учитывают экологические ограничения. В результате изученная политика может привести к риску выбора действий, нарушающих ограничения в чрезвычайных ситуациях, что усугубит проблему перегруженных линий электропередачи и приведёт к крупномасштабным отключениям электроэнергии. В этой работе мы предлагаем новый метод решения этой проблемы, основанный на алгоритме планирования на основе поиска. На этапе планирования пространство поиска ограничено набором действий, генерируемым политикой. Выбранное действие строго соответствует ограничениям путём тестирования его результата с помощью функции моделирования, предоставляемой системой. На этапе обучения, чтобы решить проблему невозможности распространения градиентов на политику, мы внедряем эволюционные стратегии (ES) с оптимизацией политики чёрного ящика для непосредственного улучшения политики, максимизируя отдачу в долгосрочной перспективе. В конкурсе NeurIPS 2020 Learning to Run Power Network (L2RPN) наше решение безопасно управляло энергосистемой и заняло первое место в обоих треках.

reward

Быстрое начало 19. Better Exploration with Optimistic Actor-Critic

Методы актёра-критика, тип обучения с подкреплением без модели, успешно применялись к сложным задачам непрерывного управления, часто достигая уровня лучших результатов. Однако широкое внедрение этих методов в реальных областях затруднено из-за их низкой эффективности выборки. Мы решаем эту проблему как теоретически, так и эмпирически.

С теоретической стороны мы определяем два явления, препятствующих эффективному исследованию существующих современных алгоритмов, таких как Soft Actor Critic. Во-первых, сочетание жадного обновления актёра с пессимистической оценкой критика приводит к избеганию действий, о которых агент не знает, — явление, которое мы называем пессимистическим недоисследованием. Во-вторых, современные алгоритмы не имеют направленного информирования, выбирая действия с равной вероятностью в противоположных направлениях от текущего среднего значения. Это расточительно, поскольку нам обычно нужны действия, предпринимаемые в определённых направлениях гораздо больше, чем в других.

Чтобы решить обе эти проблемы, мы представляем новый алгоритм Optimistic Actor Critic, который аппроксимирует нижнюю и верхнюю границы достоверности функции значения состояния-действия. Это позволяет нам применять принцип оптимизма перед лицом неопределённости для выполнения направленного исследования с использованием верхней границы, при этом всё ещё используя нижнюю границу, чтобы избежать переоценки. Мы оцениваем OAC в нескольких сложных задачах непрерывного управления, достигая уровня лучшей эффективности выборки.

20. QMIX

В последние несколько лет глубокое многоагентное обучение с подкреплением (RL) стало активно развивающейся областью исследований. Особенно сложный класс проблем в этой области — частично наблюдаемое, кооперативное, многоагентное обучение, в котором группы агентов должны научиться координировать своё поведение, основываясь только на своих частных наблюдениях. Эта область исследований привлекательна, поскольку такие проблемы актуальны для большого числа реальных систем и также более поддаются оценке, чем общие проблемы.

Стандартизированные среды, такие как ALE и MuJoCo, позволили одноагентному RL выйти за пределы игрушечных доменов, таких как миры сетки. Однако нет сопоставимого эталона для кооперативного многоагентного RL. В результате большинство статей в этой области используют одноразовые игрушечные задачи, что затрудняет измерение реального прогресса. В этой статье мы предлагаем StarCraft Multi-Agent Challenge (SMAC) в качестве эталонной задачи для заполнения этого пробела. SMAC основан на популярной игре в реальном времени StarCraft II и фокусируется на проблемах микроуправления, где каждый юнит управляется независимым агентом, который должен действовать на основе локальных наблюдений.

Мы предлагаем разнообразный набор сценариев задач и рекомендации по лучшим практикам в области бенчмаркинга и оценки. Мы также открываем исходный код для глубокого многоагентного обучения RL, включая передовые алгоритмы. Мы считаем, что SMAC может стать стандартным эталоном на долгие годы. Видео наших лучших агентов для нескольких сценариев SMAC доступны по ссылке.

21. Prioritized DQN

Приоритетное воспроизведение опыта. Опыт... Приоритезация опыта в обучении с подкреплением позволяет агентам запоминать и повторно использовать опыт из прошлого. В предыдущих работах переходы между состояниями равномерно выбирались из памяти воспроизведения. Однако такой подход просто воспроизводит переходы с той же частотой, с которой они были изначально получены, независимо от их значимости.

В этой статье мы разрабатываем систему для определения приоритетности опыта, чтобы важные переходы воспроизводились чаще, а обучение было более эффективным. Мы применяем эту систему в алгоритме Deep Q-Networks (DQN), который достиг уровня человека во многих играх Atari. DQN с приоритезацией опыта превосходит DQN с равномерным воспроизведением в 41 из 49 игр.

PGL

Серийный номер	Модельное сокращение	Название статьи (ссылка)	Резюме	Набор данных	Быстрый старт
1	DSSM	Learning Deep Structured Semantic Models for Web Search using Clickthrough Data	Abstract Латентные семантические модели, такие как LSA, стремятся сопоставить запрос с соответствующими документами на семантическом уровне, где часто не удаётся сопоставление по ключевым словам. В этом исследовании мы стремимся разработать ряд новых латентных семантических моделей с глубокой структурой, которые проецируют запросы и документы в общее низкоразмерное пространство, где релевантность документа для запроса легко вычисляется как расстояние между ними. Предлагаемые глубокие структурированные семантические модели обучаются дискриминационным образом путём максимизации условной вероятности кликабельных документов при заданном запросе с использованием данных о кликах. Чтобы сделать наши модели применимыми к крупномасштабным приложениям веб-поиска, мы также используем метод, называемый хешированием слов, который, как показано, эффективно масштабирует наши семантические модели для обработки больших словарей, характерных для таких задач. Новые модели оцениваются в задаче ранжирования веб-документов с использованием реального набора данных. Результаты показывают, что наша лучшая модель значительно превосходит другие латентные семантические модели, которые считались передовыми по производительности до работы, представленной в этой статье.	BQ	Быстрый старт
2	Match-Pyramid	Text Matching as Image Recognition	Abstract Сопоставление двух текстов является фундаментальной проблемой во многих задачах обработки естественного языка. Эффективный способ заключается в извлечении значимых шаблонов соответствия из слов, фраз и предложений для получения оценки соответствия. Вдохновлённые успехом свёрточной нейронной сети в распознавании изображений, где нейроны могут улавливать множество сложных паттернов на основе извлечённых элементарных визуальных паттернов, таких как ориентированные края и углы, мы предлагаем смоделировать сопоставление текста как проблему распознавания изображений. Во-первых, строится матрица соответствия, элементы которой представляют собой сходства между словами, и рассматривается как изображение. Затем свёрточная нейронная сеть используется для захвата богатых паттернов соответствия слой за слоем. Мы показываем, что, имитируя композиционные иерархии паттернов в распознавании образов, наша модель может успешно идентифицировать важные сигналы, такие как совпадения n-грамм и n-термов. Экспериментальные результаты демонстрируют её превосходство над базовыми показателями.	Letor07	Быстрый старт
3	MultiView-Simnet	A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems	Abstract Современные онлайн-сервисы в значительной степени полагаются на автоматическую персонализацию для рекомендации релевантного контента большому количеству пользователей. Это требует от систем быстрого масштабирования для адаптации к потоку новых пользователей, впервые посещающих онлайн-сервисы. В этой работе мы предлагаем систему рекомендаций на основе контента для решения проблем качества рекомендаций и системы.		Быстрый старт
ml-1m	Быстрый старт
50	AutoFIS	Автоматическое выделение взаимодействий признаков в моделях факторизации	Аннотация Изучение взаимодействий признаков имеет решающее значение для прогнозирования показателя кликабельности (CTR) в рекомендательных системах. В большинстве существующих моделей глубокого обучения взаимодействия признаков либо разрабатываются вручную, либо просто перечисляются. Однако перечисление всех взаимодействий признаков приводит к большим затратам памяти и вычислений. Хуже того, бесполезные взаимодействия могут создавать шум и усложнять процесс обучения. В этой работе мы предлагаем двухэтапный алгоритм под названием Automatic Feature Interaction Selection (AutoFIS). AutoFIS может автоматически определять важные взаимодействия признаков для моделей факторизации с затратами на вычисления, эквивалентными обучению целевой модели до сходимости. На этапе поиска вместо поиска по дискретному набору потенциальных взаимодействий признаков мы делаем выборку непрерывной, вводя параметры архитектуры. Реализуя регуляризованный оптимизатор для параметров архитектуры, модель может автоматически идентифицировать и удалять избыточные взаимодействия признаков во время процесса обучения модели. На этапе повторного обучения мы сохраняем параметры архитектуры в качестве блока внимания для дальнейшего повышения производительности. Автономные эксперименты на трёх крупномасштабных наборах данных (два общедоступных бенчмарка, один частный) демонстрируют, что AutoFIS может значительно улучшить различные модели на основе FM. AutoFIS был внедрён в обучающую платформу рекомендательного сервиса App Store от Huawei, где 10-дневный онлайн-тест A/B показал, что AutoFIS улучшил модель DeepFM на 20,3% и 20,1% с точки зрения CTR и CVR соответственно.	criteo	Быстрый старт
51	Dselect_K	DSelect-k: дифференцируемая и разреженная задвижка для MoE	Аннотация Архитектура «смесь экспертов» (MoE) демонстрирует многообещающие результаты в улучшении совместного использования параметров в многозадачном обучении (MTL) и масштабировании нейронных сетей большой ёмкости. Современные модели MoE используют обучаемую разреженную задвижку для выбора подмножества экспертов для каждого входного примера. Хотя концепция привлекательна, существующие разреженные задвижки, такие как Top-k, не являются гладкими. Отсутствие гладкости может привести к проблемам сходимости и статистической производительности при обучении с использованием методов на основе градиента. В этой статье мы разрабатываем DSelect-k — непрерывно дифференцируемую и разреженную задвижку для MoE, основанную на новой формулировке двоичного кодирования. Задвижку можно обучить с помощью методов первого порядка, таких как стохастический градиентный спуск, и она предлагает явный контроль над количеством выбираемых экспертов. Мы демонстрируем эффективность DSelect-k как на синтетических, так и на реальных наборах данных MTL с количеством задач до . Наши эксперименты показывают, что DSelect-k может достичь статистически значимых улучшений в прогнозировании и выборе экспертов по сравнению с популярными задвижками MoE. Примечательно, что в реальной крупномасштабной системе рекомендаций DSelect-k обеспечивает более чем улучшение прогностической эффективности по сравнению с Top-k. Мы предоставляем реализацию DSelect-k с открытым исходным кодом.	Multi_MNIST

№	Модель	Название статьи (ссылка)	Резюме	Набор данных
1	GaAN	Gated Attention Networks for Learning on Large and Spatiotemporal Graphs (https://paperswithcode.com/paper/gaan-gated-attention-networks-for-learning-on#code)	Мы предлагаем новую архитектуру сети, Gated Attention Networks (GaAN), для обучения на графах. В отличие от традиционного многоголового механизма внимания, который одинаково потребляет все головы внимания, GaAN использует свёрточную подсеть для управления важностью каждой головы внимания.	Acc
2	STGCN	Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting (https://paperswithcode.com/paper/spatio-temporal-graph-convolutional-networks)	Своевременный точный прогноз трафика имеет решающее значение для городского управления и контроля трафика. Из-за высокой нелинейности и сложности потока трафика традиционные методы не могут удовлетворить требования задач прогнозирования на среднесрочную и долгосрочную перспективу и часто пренебрегают пространственными и временными зависимостями.	—
3	GraphSAGE	Inductive Representation Learning on Large Graphs (https://paperswithcode.com/paper/inductive-representation-learning-on-large)	Низкоразмерные вложения узлов в больших графах оказались чрезвычайно полезными в различных задачах прогнозирования, от рекомендаций контента до идентификации функций белка.	—

Здесь мы представляем GraphSAGE, общую индуктивную структуру, которая использует информацию об особенностях узлов (например, текстовые атрибуты), чтобы эффективно генерировать вложения узлов для ранее невидимых данных. Вместо обучения отдельных вложений для каждого узла мы изучаем функцию, которая генерирует вложения путём выборки и агрегирования признаков из локального окружения узла. Наш алгоритм превосходит сильные базовые показатели в трёх задачах индуктивной классификации узлов: мы классифицируем категорию невидимых узлов в развивающихся информационных графах на основе данных цитирования и сообщений Reddit и показываем, что наш алгоритм обобщается на полностью невидимые графы, используя мультиграф данных о взаимодействиях белков.

4. metapath2vec

Мы изучаем проблему обучения представлению в гетерогенных сетях. Его уникальные проблемы связаны с существованием нескольких типов узлов и связей, которые ограничивают осуществимость традиционных методов встраивания сетей. Мы разрабатываем две масштабируемые модели обучения представлениям, а именно metapath2vec и metapath2vec++. Модель metapath2vec формализует случайные блуждания на основе метапути для построения гетерогенного соседства узла, а затем использует гетерогенную модель пропуска грамм для выполнения вложений узлов. Модель metapath2vec++ дополнительно позволяет одновременно моделировать структурные и семантические корреляции в гетерогенных сетях. Обширные эксперименты показывают, что metapath2vec и metapath2vec++ способны не только превзойти современные модели встраивания в различных задачах интеллектуального анализа гетерогенных сетей, таких как классификация узлов, кластеризация и поиск сходства, но и различать структурные и семантические корреляции между разнообразными сетевыми объектами.

5. SAGPool

В последние годы были предложены передовые методы применения глубокого обучения к структурированным данным, таким как графики. В частности, исследования были сосредоточены на обобщении свёрточных нейронных сетей на данные графиков, что включает переопределение операций свёртки и понижающей дискретизации (объединения) для графиков. Метод обобщения операции свёртки на графики доказал свою эффективность и широко используется. Однако метод применения понижающей дискретизации к графикам всё ещё трудно выполнить, и есть возможности для улучшения. В этой статье мы предлагаем метод объединения графиков на основе самовнимания. Самовнимание с использованием свёртки графов позволяет нашему методу объединения учитывать как особенности узлов, так и топологию графа. Чтобы обеспечить справедливое сравнение, одни и те же процедуры обучения и архитектуры моделей использовались для существующих методов объединения и нашего метода. Экспериментальные результаты демонстрируют, что наш метод достигает превосходной производительности классификации графиков на эталонных наборах данных при разумном количестве параметров.

6. line

Эта статья изучает проблему встраивания очень больших информационных сетей в низкоразмерные векторные пространства, что полезно во многих задачах, таких как визуализация, классификация узлов и прогнозирование ссылок. Большинство существующих методов встраивания графов Методы не масштабируются для информационных сетей реального мира, которые обычно содержат миллионы узлов. В этой статье мы предлагаем новый метод встраивания сети под названием «LINE», который подходит для произвольных типов информационных сетей: ненаправленных, направленных и/или взвешенных. Метод оптимизирует тщательно разработанную целевую функцию, которая сохраняет как локальную, так и глобальную структуры сети. Предлагается алгоритм выборки рёбер, который устраняет ограничение классического стохастического градиентного спуска и повышает эффективность и результативность вывода. Эмпирические эксперименты доказывают эффективность LINE на различных реальных информационных сетях, включая языковые сети, социальные сети и сети цитирования. Алгоритм очень эффективен и способен изучить встраивание сети с миллионами вершин и миллиардами рёбер за несколько часов на обычном отдельном компьютере. Исходный код LINE доступен онлайн.

dgi — Deep Graph Infomax Мы представляем Deep Graph Infomax (DGI), общий подход к обучению представлениям узлов в данных с графовой структурой без учителя. DGI основан на максимизации взаимной информации между представлениями патчей и соответствующими высокоуровневыми сводками графов, полученными с использованием установленных архитектур графовых свёрточных сетей. Изученные представления патчей обобщают подграфы, сосредоточенные вокруг интересующих узлов, и поэтому могут быть повторно использованы для последующих задач обучения на уровне узлов. В отличие от большинства предыдущих подходов к неконтролируемому обучению с GCN, DGI не полагается на цели случайных блужданий и легко применим как к трансдуктивному, так и к индуктивному обучению. Мы демонстрируем конкурентоспособные результаты на разнообразных тестах классификации узлов, которые иногда даже превосходят результаты контролируемого обучения.
sgc — Simplifying Graph Convolutional Networks Графовые свёрточные сети (GCN) и их варианты привлекли значительное внимание и стали де-факто методами изучения представлений графов. GCN черпают вдохновение в основном из недавних подходов глубокого обучения и, как следствие, могут наследовать ненужную сложность и избыточные вычисления. В этой статье мы уменьшаем эту избыточную сложность путём последовательного удаления нелинейностей и объединения весовых матриц между последовательными слоями. Мы теоретически анализируем полученную линейную модель и показываем, что она соответствует фиксированному фильтру нижних частот, за которым следует линейный классификатор. Примечательно, что наша экспериментальная оценка показывает, что эти упрощения не оказывают негативного влияния на точность во многих последующих приложениях. Более того, результирующая модель масштабируется до больших наборов данных, естественно интерпретируема и обеспечивает ускорение до двух порядков по сравнению с FastGCN.
gcn — Semi-Supervised Classification with Graph Convolutional Networks Мы представляем масштабируемый подход для обучения с частичным привлечением учителя на данных с графовой структурой, основанный на эффективном варианте свёрточных нейронных сетей, работающих непосредственно на графах. Мотивацию выбора нашей свёрточной архитектуры мы объясняем локализованным приближением первого порядка спектральных графовых свёрткок. Наша модель линейно масштабируется в зависимости от количества... Нейборхуды в сетях: node2vec

Мы предлагаем node2vec — алгоритмическую структуру для обучения непрерывным представлениям признаков узлов в сетях. В node2vec мы изучаем отображение узлов в низкоразмерное пространство признаков, которое максимизирует вероятность сохранения нейборхудов сети. Мы определяем гибкое понятие нейборхуда узла и разрабатываем процедуру предвзятого случайного блуждания, которая эффективно исследует разнообразные окрестности. Наш алгоритм обобщает предыдущую работу, основанную на жёстких понятиях нейборхудов сетей, и мы утверждаем, что добавленная гибкость в исследовании окрестностей является ключом к обучению более богатым представлениям.

Мы демонстрируем эффективность node2vec по сравнению с существующими современными методами в многометочной классификации и предсказании связей в нескольких реальных сетях из разных областей. Вместе наша работа представляет новый способ эффективного изучения передовых независимых от задач представлений в сложных сетях.

GATNE: представление обучения для атрибутированной мультиплексной гетерогенной сети

В этой статье мы формализуем проблему обучения встраиванию для Атрибутированной Мультиплексной Гетерогенной Сети и предлагаем унифицированную структуру для решения этой проблемы. Структура поддерживает как трансдуктивное, так и индуктивное обучение. Мы также даём теоретический анализ предложенной структуры, показывая её связь с предыдущими работами и доказывая её лучшую выразительность.

Проведены систематические оценки предложенной структуры на четырёх различных жанрах сложных наборов данных: Amazon, YouTube, Twitter и Alibaba. Экспериментальные результаты показывают, что с помощью обученных внедрений из предложенной структуры можно достичь статистически значимых улучшений (например, 5,99–28,23% подъёма по оценкам F1; p < 0,01, t-тест) по сравнению с предыдущими передовыми методами для предсказания связей.

Структура также была успешно развёрнута в системе рекомендаций ведущей мировой компании электронной коммерции Alibaba Group. Результаты офлайн A/B тестов по рекомендации продуктов дополнительно подтверждают эффективность и действенность структуры на практике.

DeeperGCN: всё, что вам нужно для тренировки более глубоких GCNs

Графовые свёрточные сети (GCN) привлекают значительное внимание благодаря своей способности изучать представления на графах. В отличие от свёрточных нейронных сетей (CNN), которые могут использовать преимущества укладки очень глубоких слоёв, GCN страдают от исчезающего градиента, чрезмерного сглаживания и переобучения при углублении. Эти проблемы ограничивают репрезентативную силу GCN на крупномасштабных графах.

Эта статья предлагает DeeperGCN, способный успешно и надёжно обучать очень глубокие GCN. Мы определяем дифференцируемые обобщённые функции агрегирования для объединения различных операций агрегации сообщений (например, среднее, максимальное). Мы также предлагаем новый слой нормализации под названием MsgNorm и предварительную активацию версии остаточных соединений для GCN. Обширные эксперименты на Open Graph Benchmark (OGB) показывают, что DeeperGCN значительно повышает производительность по сравнению с передовым уровнем в задачах обучения графам большого масштаба для прогнозирования свойств узлов и свойств графа. 15. Миллиардный масштаб товарного внедрения для рекомендаций в сфере электронной коммерции Alibaba

Рекомендательные системы (РС) стали важнейшей технологией для увеличения бизнеса на Taobao, крупнейшей онлайн-платформе потребитель-потребитель (C2C) в Китае. Данные миллиардного масштаба в Taobao создают три основные проблемы для РС Taobao: масштабируемость, разреженность и холодный старт. В этой статье мы представляем наши технические решения для решения этих трёх проблем. Методы основаны на структуре встраивания графа. Сначала мы строим граф элементов из истории поведения пользователей. Затем каждый элемент представляется в виде вектора с помощью встраивания графа. Встраивания элементов используются для вычисления попарных сходств между всеми элементами, которые затем используются в процессе рекомендации. Чтобы уменьшить проблемы разреженности и холодного старта, в структуру встраивания включается дополнительная информация. Мы предлагаем два метода агрегирования для интеграции встраиваний элементов и соответствующей дополнительной информации. Результаты экспериментов в автономном режиме показывают, что методы, включающие дополнительную информацию, превосходят те, которые этого не делают. Кроме того, мы описываем платформу, на которой развёрнуты методы встраивания, и рабочий процесс для обработки данных миллиардного масштаба на Taobao. Используя онлайн-A/B-тест, мы показываем, что онлайн-рейтинг кликов (CTR) улучшен по сравнению с предыдущими методами рекомендаций, широко используемыми на Taobao, что дополнительно демонстрирует эффективность и осуществимость предложенных нами методов в реальной производственной среде Taobao.

16. Графовые сети внимания

Мы представляем графовые сети внимания (GAT), новые архитектуры нейронных сетей, работающие с данными в виде графа, используя слои самовнимания с масками для устранения недостатков предыдущих методов, основанных на свёрточных графах или их приближениях. Укладывая слои, в которых узлы могут обращать внимание на особенности своих окрестностей, мы позволяем (неявно) назначать разные веса разным узлам в окрестности, не требуя каких-либо дорогостоящих матричных операций (таких как инверсия) или зависимости от предварительного знания структуры графа. Таким образом, мы одновременно решаем несколько ключевых задач спектральных графовых нейронных сетей и делаем нашу модель легко применимой как к индуктивным, так и к трансдуктивным задачам. Наши модели GAT достигли или сравнялись с современными результатами по четырём установленным трансдуктивным и индуктивным графовым бенчмаркам: наборам данных Cora, Citeseer и Pubmed для цитирования, а также набору данных о взаимодействии белков и белков (где тестовые графики остаются невидимыми во время обучения).

17. DeepWalk: онлайн-обучение социальным представлениям

Мы представляем DeepWalk, новый подход к изучению скрытых представлений вершин в сети. Эти скрытые представления кодируют социальные отношения в непрерывном векторном пространстве, которое легко используется статистическими моделями. DeepWalk обобщает последние достижения в моделировании языка и неконтролируемом изучении признаков (или глубоком обучении) от последовательностей слов к графам. DeepWalk использует локальную информацию, полученную из усечённых случайных блужданий, для изучения скрытых представлений, рассматривая блуждания... Как эквивалент предложений. Мы демонстрируем скрытые представления DeepWalk в нескольких задачах классификации многозначных сетей для социальных сетей, таких как BlogCatalog, Flickr и YouTube. Наши результаты показывают, что DeepWalk превосходит сложные базовые показатели, которым разрешено глобальное представление сети, особенно при наличии недостающей информации. Представления DeepWalk могут обеспечить показатели F1 до 10% выше, чем у конкурирующих методов, когда размеченные данные разрежены. В некоторых экспериментах представления DeepWalk способны превзойти все базовые методы, используя на 60% меньше обучающих данных. DeepWalk также масштабируем. Это алгоритм онлайн-обучения, который строит полезные инкрементальные результаты и тривиально распараллеливается. Эти качества делают его подходящим для широкого класса реальных приложений, таких как классификация сетей и обнаружение аномалий.

MAG240M. Masked Label Prediction: Unified Message Passing Model for Semi-Supervised Classification. Графовая нейронная сеть (GNN) и алгоритм распространения меток (LPA) — это оба алгоритма передачи сообщений, которые достигли превосходной производительности при полу-контролируемой классификации. GNN выполняет распространение признаков с помощью нейронной сети для прогнозирования, в то время как LPA использует распространение меток по матрице смежности графа для получения результатов. Однако до сих пор не существует эффективного способа напрямую объединить эти два вида алгоритмов. Чтобы решить эту проблему, мы предлагаем новую унифицированную модель передачи сообщений (UniMP), которая может включать распространение признаков и меток как во время обучения, так и во время вывода. Во-первых, UniMP принимает сеть Graph Transformer, принимая вложение признаков и вложение меток в качестве входной информации для распространения. Во-вторых, чтобы обучить сеть без переобучения при вводе метки самоцикла, UniMP вводит стратегию предсказания замаскированных меток, при которой некоторый процент входной информации о метках маскируется случайным образом, а затем предсказывается. UniMP концептуально объединяет распространение признаков и распространение меток и является эмпирически мощным. Он достигает новых результатов в области полу-контролируемой классификации в Open Graph Benchmark (OGB).
LightGCN. Simplifying and Powering Graph Convolution Network for Recommendation. Сети графовых сверток (GCN) стали новым стандартом для совместной фильтрации. Тем не менее, причины их эффективности для рекомендаций не совсем понятны. Существующая работа, которая адаптирует GCN к рекомендациям, не имеет тщательного анализа исключений в GCN, который изначально был разработан для задач классификации графов и оснащён множеством операций нейронных сетей. Однако мы эмпирически обнаруживаем, что два наиболее распространённых дизайна в GCN — преобразование признаков и нелинейная активация — мало способствуют производительности совместной фильтрации. Хуже того, их включение усложняет обучение и ухудшает производительность рекомендаций. В этой работе мы стремимся упростить дизайн GCN, чтобы сделать его более лаконичным и подходящим для рекомендаций. Мы предлагаем новую модель под названием LightGCN, включающую только самый важный компонент в GCN — агрегирование окрестностей — для совместной фильтрации. В частности, LightGCN изучает вложения пользователей и элементов, линейно распространяя их по графу взаимодействия пользователь-элемент, и использует взвешенную сумму вложений, изученных на всех слоях, в качестве окончательного вложения. Такая простая, линейная и аккуратная модель намного проще в реализации и обучении, демонстрируя значительные улучшения. Изучение представлений графов. Однако без специально разработанных архитектур производительность GCN быстро ухудшается с увеличением глубины. Поскольку агрегированный размер соседства и глубина нейронной сети — это два полностью ортогональных аспекта представления графа, некоторые методы фокусируются на обобщении соседства путём агрегирования K-шаговых окрестностей узлов при использовании неглубоких нейронных сетей. Тем не менее эти методы всё ещё сталкиваются с чрезмерным сглаживанием и страдают от высоких затрат на вычисления и хранение.

В этой статье мы используем модифицированное ядро марковской диффузии для получения варианта GCN под названием Simple Spectral Graph Convolution (SSGC). Наш спектральный анализ показывает, что наша простая спектральная свёртка графа, используемая в SSGC, представляет собой компромисс между полосами пропускания низких и высоких частот, которые улавливают глобальный и локальный контексты каждого узла. Мы выдвигаем два теоретических утверждения, демонстрирующих, что мы можем агрегировать последовательность всё более крупных окрестностей по сравнению с конкурентами, ограничивая серьёзное чрезмерное сглаживание. Наши экспериментальные оценки показывают, что SSGC с линейным учеником конкурентоспособен в задачах классификации текста и узлов. Более того, SSGC сопоставим с другими современными методами кластеризации узлов и задач прогнозирования сообществ. Возможно, это не естественно выражается в виде последовательностей. Например, неясно, как ввести набор чисел в модель, задача которой — отсортировать их. Аналогично, мы не знаем, как организовать выходные данные, когда они соответствуют случайным переменным и задача состоит в моделировании их неизвестной совместной вероятности.

В этой статье мы сначала показываем на различных примерах, что порядок, в котором мы организуем входные и/или выходные данные, имеет существенное значение при изучении базовой модели. Затем мы обсуждаем расширение фреймворка seq2seq, которое выходит за рамки последовательностей и обрабатывает входные наборы данных принципиальным образом. Кроме того, мы предлагаем потерю, которая, перебирая возможные порядки во время обучения, решает проблему отсутствия структуры выходных наборов. Мы представляем эмпирические доказательства наших утверждений относительно упорядочивания и модификаций фреймворка seq2seq для задач языкового моделирования и парсинга, а также двух искусственных задач — сортировки чисел и оценки совместной вероятности неизвестных графических моделей.

Графовые структурированные данные часто встречаются в таких областях, как химия, семантика естественного языка, социальные сети и базы знаний. В этой работе мы изучаем методы изучения признаков для графовых структурированных входных данных. Нашей отправной точкой является предыдущая работа по нейронным сетям на графах (Scarselli et al., 2009), которую мы модифицируем, чтобы использовать блокируемые рекуррентные единицы и современные методы оптимизации, а затем расширяем до выходных последовательностей. Результатом является гибкий и широко применимый класс моделей нейронных сетей, который имеет благоприятные индуктивные смещения относительно моделей, основанных исключительно на последовательностях (например, LSTM), когда проблема имеет структуру графа. Мы демонстрируем возможности на некоторых простых задачах искусственного интеллекта (bAbI) и обучения графическим алгоритмам. Затем мы показываем, что он достигает современного уровня производительности в задаче проверки программы, где подграфы должны быть сопоставлены с абстрактными структурами данных.

Во многих важных приложениях обработки данных графов полученная информация включает как признаки узлов, так и наблюдения топологии графа. Графовые нейронные сети (GNN) предназначены для использования обоих источников доказательств, но они не оптимально уравновешивают свою полезность и интегрируют их таким образом, который также является универсальным. Здесь универсальность относится к независимости от предположений о гомофилии или гетерофилии графа.

Мы решаем эти проблемы, представляя новую архитектуру обобщённой нейронной сети PageRank (GPR), которая адаптивно изучает веса GPR, чтобы совместно оптимизировать извлечение информации о признаках узлов и топологической информации независимо от степени, в которой метки узлов являются гомофильными или гетерофильными. Изученные веса GPR автоматически адаптируются к шаблону меток узлов, независимо от типа инициализации, и тем самым гарантируют отличную производительность обучения для шаблонов меток, которые обычно трудно обрабатывать. Кроме того, они позволяют избежать чрезмерного сглаживания признаков, процесса, который делает информацию о признаках неразличимой, без необходимости делать сеть неглубокой. Наш сопутствующий теоретический анализ метода GPR-GNN облегчается новыми синтетическими наборами данных, созданными с помощью так называемой контекстной стохастической блочной модели. Мы также сравниваем производительность нашей архитектуры GNN с производительностью нескольких современных GNN на задаче классификации узлов с использованием известных эталонных гомофильных и гетерофильных наборов данных. Результы показывают, что GPR-GNN обеспечивает значительное улучшение производительности по сравнению с существующими методами как на синтетических данных, так и на эталонных.

Acc

Быстрый старт (暂无)

OSCHINA-MIRROR/paddlepaddle-models

PaddleSeg

PaddleSpeech

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/paddlepaddle-models .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

PaddleSeg

PaddleSpeech

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/paddlepaddle-models