1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/modelee-clip-vit-large-patch14

В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
README.md 14 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 24.11.2024 01:43 c6348b4

Модель CLIP

Отказ от ответственности: эта карточка модели взята и модифицирована из официального репозитория CLIP, её можно найти здесь.

Детали модели

Модель CLIP была разработана исследователями из OpenAI для изучения факторов, влияющих на надёжность в задачах компьютерного зрения. Модель также была создана для проверки способности моделей обобщать произвольные задачи классификации изображений без предварительного обучения. Она не предназначена для общего развёртывания моделей — чтобы развернуть такие модели, как CLIP, исследователям сначала необходимо тщательно изучить их возможности в контексте конкретного применения.

Дата модели

Январь 2021 года.

Тип модели

Базовая модель использует архитектуру ViT-L/14 Transformer в качестве кодировщика изображений и маскированный самовнимательный Transformer в качестве текстового кодировщика. Эти кодировщики обучаются максимизировать сходство пар (изображение, текст) с помощью контрастной потери.

В оригинальной реализации было два варианта: один с использованием кодировщика ResNet для изображений, а другой — с использованием Vision Transformer. В этом репозитории представлен вариант с Vision Transformer.

Документы

Использование с трансформерами

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-large-patch14")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-large-patch14")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # это оценка сходства изображения и текста
probs = logits_per_image.softmax(dim=1) # мы можем взять softmax, чтобы получить вероятности меток

Использование модели

Предполагаемое использование

Модель предназначена в качестве исследовательского результата для научных сообществ. Мы надеемся, что эта модель поможет исследователям лучше понять и исследовать произвольную классификацию изображений без предварительного обучения. Мы также надеемся, что она может быть использована для междисциплинарных исследований потенциального воздействия таких моделей — статья о CLIP включает обсуждение потенциальных последующих воздействий для предоставления примера такого анализа.

Основные предполагаемые пользователи

Основные предполагаемые пользователи этих моделей — исследователи в области искусственного интеллекта.

Мы в основном представляем, что модель будет использоваться исследователями для лучшего понимания надёжности, обобщения и других возможностей, предубеждений и ограничений моделей компьютерного зрения.

Варианты использования вне сферы действия

Любое развёрнутое использование модели — коммерческое или нет — в настоящее время выходит за рамки. Неразвёрнутые варианты использования, такие как поиск изображений в ограниченной среде, также не рекомендуются, если только не проведено тщательное тестирование модели в домене с конкретной, фиксированной таксономией классов. Это связано с тем, что наша оценка безопасности продемонстрировала высокую потребность в тестировании задач, особенно учитывая изменчивость производительности CLIP с различными таксономиями классов. Это делает непроверенное и неограниченное развёртывание модели потенциально вредным.

Некоторые варианты использования, которые подпадают под область наблюдения и распознавания лиц, всегда выходят за рамки независимо от производительности модели. Это связано с тем, что использование искусственного интеллекта для таких задач может быть преждевременным в настоящее время, учитывая отсутствие норм тестирования и проверок для обеспечения его справедливого использования.

Поскольку модель не была специально обучена или оценена на каких-либо языках, кроме английского, её использование должно быть ограничено англоязычными вариантами использования. Сочетание сканирования нескольких веб-сайтов и использования широко используемых существующих наборов данных изображений, таких как YFCC100M (http://projects.dfki.uni-kl.de/yfcc100m/). Большая часть данных поступает от нашего сканирования интернета. Это означает, что данные более репрезентативны для людей и обществ, наиболее подключённых к интернету, которые, как правило, склоняются к более развитым странам и более молодым пользователям мужского пола.

Миссия данных

Наша цель при создании этого набора данных состояла в том, чтобы проверить надёжность и обобщаемость в задачах компьютерного зрения. В результате основное внимание уделялось сбору больших объёмов данных из различных общедоступных источников данных в интернете. Данные были собраны в основном невмешательским способом. Однако мы сканировали только те веб-сайты, которые имели политику против чрезмерно жестоких и взрослых изображений и позволяли нам отфильтровывать такой контент. Мы не намерены использовать этот набор данных в качестве основы для любой коммерческой или развёрнутой модели и не будем выпускать набор данных.

Производительность и ограничения

Производительность

Мы оценили производительность CLIP на широком спектре бенчмарков по различным наборам данных компьютерного зрения, таким как распознавание текста до распознавания текстуры и мелкозернистой классификации. В статье описывается производительность модели на следующих наборах данных:

  • Food101;
  • CIFAR10;
  • CIFAR100;
  • Birdsnap;
  • SUN397;
  • Stanford Cars;
  • FGVC Aircraft;
  • VOC2007;
  • DTD;
  • Oxford-IIIT Pet dataset;
  • Caltech101;
  • Flowers102;
  • MNIST;
  • SVHN;
  • IIIT5K;
  • Hateful Memes;
  • SST-2;
  • UCF101;
  • Kinetics700;
  • Country211;
  • CLEVR Counting;
  • KITTI Distance;
  • STL-10;
  • RareAct;
  • Flickr30;
  • MSCOCO;
  • ImageNet;
  • ImageNet-A;
  • ImageNet-R;
  • ImageNet Sketch;
  • ObjectNet (ImageNet Overlap);
  • Youtube-BB;
  • ImageNet-Vid.

Ограничения

CLIP и наш анализ имеют ряд ограничений. В настоящее время CLIP испытывает трудности с некоторыми задачами, такими как мелкозернистая классификация и подсчёт объектов. CLIP также создаёт проблемы в отношении справедливости и предвзятости, которые мы обсуждаем в статье и кратко в следующем разделе. Кроме того, наш подход к тестированию CLIP также имеет важное ограничение — во многих случаях мы использовали линейные зонды для оценки производительности CLIP, и есть доказательства того, что линейные зонды могут недооценивать производительность модели.

Предвзятость и справедливость

Мы обнаружили, что производительность CLIP — и конкретные предубеждения, которые она демонстрирует — может значительно зависеть от дизайна класса и выбора категорий для включения и исключения. Мы протестировали риск определённых видов клеветы с помощью CLIP, классифицируя изображения людей из Fairface (https://arxiv.org/abs/1908.04913) в категории, связанные с преступностью, и категории нечеловеческих животных. Мы обнаружили значительные различия в расовом и гендерном отношении. Кроме того, мы обнаружили, что эти различия могут меняться в зависимости от того, как были построены классы. (Подробности приведены в разделе «Более широкие последствия» статьи).

Мы также протестировали производительность CLIP по гендерной, расовой и возрастной классификации, используя набор данных Fairface (мы по умолчанию используем расовые категории, поскольку они построены в наборе данных Fairface), чтобы оценить качество производительности в разных демографических группах. Мы обнаружили точность > 96% для всех рас для гендерной классификации с «Ближним Востоком», имеющим самую высокую точность (98,4%), и «Белым», имеющим самый низкий показатель (96,5%). Кроме того, CLIP усреднил ~ 93% для расовой классификации и ~ 63% для возрастной классификации. Наше использование оценок для проверки гендерной, расовой и возрастной классификации, а также вреда клеветы просто для оценки производительности модели среди людей и выявления потенциальных рисков, а не для демонстрации одобрения/энтузиазма по поводу таких задач.

Обратная связь

Куда отправлять вопросы или комментарии о модели

Пожалуйста, используйте эту форму Google (https://forms.gle/Uv7afRH5dvY34ZEs9).

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/modelee-clip-vit-large-patch14.git
git@api.gitlife.ru:oschina-mirror/modelee-clip-vit-large-patch14.git
oschina-mirror
modelee-clip-vit-large-patch14
modelee-clip-vit-large-patch14
main