Отказ от ответственности: эта карточка модели взята и модифицирована из официального репозитория CLIP, её можно найти здесь.
Модель CLIP была разработана исследователями из OpenAI для изучения факторов, влияющих на надёжность в задачах компьютерного зрения. Модель также была создана для проверки способности моделей обобщать произвольные задачи классификации изображений без предварительного обучения. Она не предназначена для общего развёртывания моделей — чтобы развернуть такие модели, как CLIP, исследователям сначала необходимо тщательно изучить их возможности в контексте конкретного применения.
Январь 2021 года.
Базовая модель использует архитектуру ViT-L/14 Transformer в качестве кодировщика изображений и маскированный самовнимательный Transformer в качестве текстового кодировщика. Эти кодировщики обучаются максимизировать сходство пар (изображение, текст) с помощью контрастной потери.
В оригинальной реализации было два варианта: один с использованием кодировщика ResNet для изображений, а другой — с использованием Vision Transformer. В этом репозитории представлен вариант с Vision Transformer.
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-large-patch14")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-large-patch14")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # это оценка сходства изображения и текста
probs = logits_per_image.softmax(dim=1) # мы можем взять softmax, чтобы получить вероятности меток
Модель предназначена в качестве исследовательского результата для научных сообществ. Мы надеемся, что эта модель поможет исследователям лучше понять и исследовать произвольную классификацию изображений без предварительного обучения. Мы также надеемся, что она может быть использована для междисциплинарных исследований потенциального воздействия таких моделей — статья о CLIP включает обсуждение потенциальных последующих воздействий для предоставления примера такого анализа.
Основные предполагаемые пользователи этих моделей — исследователи в области искусственного интеллекта.
Мы в основном представляем, что модель будет использоваться исследователями для лучшего понимания надёжности, обобщения и других возможностей, предубеждений и ограничений моделей компьютерного зрения.
Любое развёрнутое использование модели — коммерческое или нет — в настоящее время выходит за рамки. Неразвёрнутые варианты использования, такие как поиск изображений в ограниченной среде, также не рекомендуются, если только не проведено тщательное тестирование модели в домене с конкретной, фиксированной таксономией классов. Это связано с тем, что наша оценка безопасности продемонстрировала высокую потребность в тестировании задач, особенно учитывая изменчивость производительности CLIP с различными таксономиями классов. Это делает непроверенное и неограниченное развёртывание модели потенциально вредным.
Некоторые варианты использования, которые подпадают под область наблюдения и распознавания лиц, всегда выходят за рамки независимо от производительности модели. Это связано с тем, что использование искусственного интеллекта для таких задач может быть преждевременным в настоящее время, учитывая отсутствие норм тестирования и проверок для обеспечения его справедливого использования.
Поскольку модель не была специально обучена или оценена на каких-либо языках, кроме английского, её использование должно быть ограничено англоязычными вариантами использования. Сочетание сканирования нескольких веб-сайтов и использования широко используемых существующих наборов данных изображений, таких как YFCC100M (http://projects.dfki.uni-kl.de/yfcc100m/). Большая часть данных поступает от нашего сканирования интернета. Это означает, что данные более репрезентативны для людей и обществ, наиболее подключённых к интернету, которые, как правило, склоняются к более развитым странам и более молодым пользователям мужского пола.
Наша цель при создании этого набора данных состояла в том, чтобы проверить надёжность и обобщаемость в задачах компьютерного зрения. В результате основное внимание уделялось сбору больших объёмов данных из различных общедоступных источников данных в интернете. Данные были собраны в основном невмешательским способом. Однако мы сканировали только те веб-сайты, которые имели политику против чрезмерно жестоких и взрослых изображений и позволяли нам отфильтровывать такой контент. Мы не намерены использовать этот набор данных в качестве основы для любой коммерческой или развёрнутой модели и не будем выпускать набор данных.
Мы оценили производительность CLIP на широком спектре бенчмарков по различным наборам данных компьютерного зрения, таким как распознавание текста до распознавания текстуры и мелкозернистой классификации. В статье описывается производительность модели на следующих наборах данных:
CLIP и наш анализ имеют ряд ограничений. В настоящее время CLIP испытывает трудности с некоторыми задачами, такими как мелкозернистая классификация и подсчёт объектов. CLIP также создаёт проблемы в отношении справедливости и предвзятости, которые мы обсуждаем в статье и кратко в следующем разделе. Кроме того, наш подход к тестированию CLIP также имеет важное ограничение — во многих случаях мы использовали линейные зонды для оценки производительности CLIP, и есть доказательства того, что линейные зонды могут недооценивать производительность модели.
Мы обнаружили, что производительность CLIP — и конкретные предубеждения, которые она демонстрирует — может значительно зависеть от дизайна класса и выбора категорий для включения и исключения. Мы протестировали риск определённых видов клеветы с помощью CLIP, классифицируя изображения людей из Fairface (https://arxiv.org/abs/1908.04913) в категории, связанные с преступностью, и категории нечеловеческих животных. Мы обнаружили значительные различия в расовом и гендерном отношении. Кроме того, мы обнаружили, что эти различия могут меняться в зависимости от того, как были построены классы. (Подробности приведены в разделе «Более широкие последствия» статьи).
Мы также протестировали производительность CLIP по гендерной, расовой и возрастной классификации, используя набор данных Fairface (мы по умолчанию используем расовые категории, поскольку они построены в наборе данных Fairface), чтобы оценить качество производительности в разных демографических группах. Мы обнаружили точность > 96% для всех рас для гендерной классификации с «Ближним Востоком», имеющим самую высокую точность (98,4%), и «Белым», имеющим самый низкий показатель (96,5%). Кроме того, CLIP усреднил ~ 93% для расовой классификации и ~ 63% для возрастной классификации. Наше использование оценок для проверки гендерной, расовой и возрастной классификации, а также вреда клеветы просто для оценки производительности модели среди людей и выявления потенциальных рисков, а не для демонстрации одобрения/энтузиазма по поводу таких задач.
Пожалуйста, используйте эту форму Google (https://forms.gle/Uv7afRH5dvY34ZEs9).
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )