Модель CLIP

Отказ от ответственности: эта карточка модели взята и модифицирована из официального репозитория CLIP, её можно найти здесь.

Детали модели

Модель CLIP была разработана исследователями из OpenAI для изучения факторов, влияющих на надёжность в задачах компьютерного зрения. Модель также была создана для проверки способности моделей обобщать произвольные задачи классификации изображений без предварительного обучения. Она не предназначена для общего развёртывания моделей — чтобы развернуть такие модели, как CLIP, исследователям сначала необходимо тщательно изучить их возможности в контексте конкретного применения.

Дата модели

Январь 2021 года.

Тип модели

Базовая модель использует архитектуру ViT-L/14 Transformer в качестве кодировщика изображений и маскированный самовнимательный Transformer в качестве текстового кодировщика. Эти кодировщики обучаются максимизировать сходство пар (изображение, текст) с помощью контрастной потери.

В оригинальной реализации было два варианта: один с использованием кодировщика ResNet для изображений, а другой — с использованием Vision Transformer. В этом репозитории представлен вариант с Vision Transformer.

Документы

Использование с трансформерами

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-large-patch14")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-large-patch14")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # это оценка сходства изображения и текста
probs = logits_per_image.softmax(dim=1) # мы можем взять softmax, чтобы получить вероятности меток

Использование модели

Предполагаемое использование

Модель предназначена в качестве исследовательского результата для научных сообществ. Мы надеемся, что эта модель поможет исследователям лучше понять и исследовать произвольную классификацию изображений без предварительного обучения. Мы также надеемся, что она может быть использована для междисциплинарных исследований потенциального воздействия таких моделей — статья о CLIP включает обсуждение потенциальных последующих воздействий для предоставления примера такого анализа.

Основные предполагаемые пользователи

Основные предполагаемые пользователи этих моделей — исследователи в области искусственного интеллекта.

Мы в основном представляем, что модель будет использоваться исследователями для лучшего понимания надёжности, обобщения и других возможностей, предубеждений и ограничений моделей компьютерного зрения.

Варианты использования вне сферы действия

Любое развёрнутое использование модели — коммерческое или нет — в настоящее время выходит за рамки. Неразвёрнутые варианты использования, такие как поиск изображений в ограниченной среде, также не рекомендуются, если только не проведено тщательное тестирование модели в домене с конкретной, фиксированной таксономией классов. Это связано с тем, что наша оценка безопасности продемонстрировала высокую потребность в тестировании задач, особенно учитывая изменчивость производительности CLIP с различными таксономиями классов. Это делает непроверенное и неограниченное развёртывание модели потенциально вредным.

Некоторые варианты использования, которые подпадают под область наблюдения и распознавания лиц, всегда выходят за рамки независимо от производительности модели. Это связано с тем, что использование искусственного интеллекта для таких задач может быть преждевременным в настоящее время, учитывая отсутствие норм тестирования и проверок для обеспечения его справедливого использования.

Поскольку модель не была специально обучена или оценена на каких-либо языках, кроме английского, её использование должно быть ограничено англоязычными вариантами использования. Сочетание сканирования нескольких веб-сайтов и использования широко используемых существующих наборов данных изображений, таких как YFCC100M (http://projects.dfki.uni-kl.de/yfcc100m/). Большая часть данных поступает от нашего сканирования интернета. Это означает, что данные более репрезентативны для людей и обществ, наиболее подключённых к интернету, которые, как правило, склоняются к более развитым странам и более молодым пользователям мужского пола.

Миссия данных

Наша цель при создании этого набора данных состояла в том, чтобы проверить надёжность и обобщаемость в задачах компьютерного зрения. В результате основное внимание уделялось сбору больших объёмов данных из различных общедоступных источников данных в интернете. Данные были собраны в основном невмешательским способом. Однако мы сканировали только те веб-сайты, которые имели политику против чрезмерно жестоких и взрослых изображений и позволяли нам отфильтровывать такой контент. Мы не намерены использовать этот набор данных в качестве основы для любой коммерческой или развёрнутой модели и не будем выпускать набор данных.

Производительность и ограничения

Производительность

Мы оценили производительность CLIP на широком спектре бенчмарков по различным наборам данных компьютерного зрения, таким как распознавание текста до распознавания текстуры и мелкозернистой классификации. В статье описывается производительность модели на следующих наборах данных:

Food101;
CIFAR10;
CIFAR100;
Birdsnap;
SUN397;
Stanford Cars;
FGVC Aircraft;
VOC2007;
DTD;
Oxford-IIIT Pet dataset;
Caltech101;
Flowers102;
MNIST;
SVHN;
IIIT5K;
Hateful Memes;
SST-2;
UCF101;
Kinetics700;
Country211;
CLEVR Counting;
KITTI Distance;
STL-10;
RareAct;
Flickr30;
MSCOCO;
ImageNet;
ImageNet-A;
ImageNet-R;
ImageNet Sketch;
ObjectNet (ImageNet Overlap);
Youtube-BB;
ImageNet-Vid.

Ограничения

CLIP и наш анализ имеют ряд ограничений. В настоящее время CLIP испытывает трудности с некоторыми задачами, такими как мелкозернистая классификация и подсчёт объектов. CLIP также создаёт проблемы в отношении справедливости и предвзятости, которые мы обсуждаем в статье и кратко в следующем разделе. Кроме того, наш подход к тестированию CLIP также имеет важное ограничение — во многих случаях мы использовали линейные зонды для оценки производительности CLIP, и есть доказательства того, что линейные зонды могут недооценивать производительность модели.

Предвзятость и справедливость

Мы обнаружили, что производительность CLIP — и конкретные предубеждения, которые она демонстрирует — может значительно зависеть от дизайна класса и выбора категорий для включения и исключения. Мы протестировали риск определённых видов клеветы с помощью CLIP, классифицируя изображения людей из Fairface (https://arxiv.org/abs/1908.04913) в категории, связанные с преступностью, и категории нечеловеческих животных. Мы обнаружили значительные различия в расовом и гендерном отношении. Кроме того, мы обнаружили, что эти различия могут меняться в зависимости от того, как были построены классы. (Подробности приведены в разделе «Более широкие последствия» статьи).

Мы также протестировали производительность CLIP по гендерной, расовой и возрастной классификации, используя набор данных Fairface (мы по умолчанию используем расовые категории, поскольку они построены в наборе данных Fairface), чтобы оценить качество производительности в разных демографических группах. Мы обнаружили точность > 96% для всех рас для гендерной классификации с «Ближним Востоком», имеющим самую высокую точность (98,4%), и «Белым», имеющим самый низкий показатель (96,5%). Кроме того, CLIP усреднил ~ 93% для расовой классификации и ~ 63% для возрастной классификации. Наше использование оценок для проверки гендерной, расовой и возрастной классификации, а также вреда клеветы просто для оценки производительности модели среди людей и выявления потенциальных рисков, а не для демонстрации одобрения/энтузиазма по поводу таких задач.

Обратная связь

Куда отправлять вопросы или комментарии о модели

Пожалуйста, используйте эту форму Google (https://forms.gle/Uv7afRH5dvY34ZEs9).

OSCHINA-MIRROR/modelee-clip-vit-large-patch14

Модель CLIP

Детали модели

Дата модели

Тип модели

Документы

Использование с трансформерами

Использование модели

Предполагаемое использование

Основные предполагаемые пользователи

Варианты использования вне сферы действия

Миссия данных

Производительность и ограничения

Производительность

Ограничения

Предвзятость и справедливость

Обратная связь

Куда отправлять вопросы или комментарии о модели

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-clip-vit-large-patch14 .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Модель CLIP

Детали модели

Дата модели

Тип модели

Документы

Использование с трансформерами

Использование модели

Предполагаемое использование

Основные предполагаемые пользователи

Варианты использования вне сферы действия

Миссия данных

Производительность и ограничения

Производительность

Ограничения

Предвзятость и справедливость

Обратная связь

Куда отправлять вопросы или комментарии о модели

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-clip-vit-large-patch14