Awesome Deep Vision
Кураторский список ресурсов глубокого обучения для компьютерного зрения, вдохновлённый awesome-php и awesome-computer-vision.
Сопровождающие: Дживон Ким, Хису Мён, Мьюнгсуб Чой, Джун Квон Ли, Тэксу Ким.
Проект не поддерживается активно.
Пожалуйста, не стесняйтесь отправлять запросы на вытягивание (pull requests) для добавления статей.
(от Алекса Крижевского, Ильи Суцкевера, Джеффри Э. Хинтона, Классификация ImageNet с глубокими свёрточными нейронными сетями, NIPS, 2012.)
Microsoft (Глубокое остаточное обучение) [Статья][Слайд]
Microsoft (PReLu/Инициализация весов) [Статья]
Нормализация партии [Статья]
GoogLeNet [Статья]
Оптический поток (FlowNet)
Уменьшение артефактов сжатия
Удаление размытия
Деконволюция изображений
Глубокий фильтр, учитывающий края
Вычисление стоимости стереосогласования с помощью свёрточной нейронной сети
Красочное окрашивание изображений
Райан Даль. Окрашивание.
Изучение признаков путём восстановления
(из Гедаса Бертасиуса, Джанбо Ши, Лоренцо Торресани. DeepEdge: многоуровневая раздвоенная глубокая сеть для обнаружения контуров сверху вниз. CVPR, 2015.)
Обнаружение глубоких границ
Holistically-Nested Edge Detection
DeepContour
(от Джифенга Дая, Кайминга Хе, Цзяна Суна. BoxSup: использование ограничивающих рамок для управления свёрточными сетями для семантической сегментации. arXiv: 1503.01640.)
PASCAL VOC2012 Challenge Leaderboard (01 сентября 2016 г.)
(по данным PASCAL VOC2012 таблицы лидеров).
SEC: Seed, Expand and Constrain
Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun. Learning Hierarchical Features for Scene Labeling. PAMI, 2013.
Vijay Badrinarayanan, Alex Kendall и Roberto Cipolla. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. arXiv preprint arXiv:1511.00561, 2015.
Alex Kendall, Vijay Badrinarayanan и Roberto Cipolla. Bayesian SegNet: Model Uncertainty in Deep Convolutional Encoder-Decoder Architectures for Scene Understanding. arXiv preprint arXiv:1511.02680, 2015.
Fisher Yu, Vladlen Koltun. Multi-Scale Context Aggregation by Dilated Convolutions. ICLR 2016.
Hamid Izadinia, Fereshteh Sadeghi, Santosh Kumar Divvala, Yejin Choi, Ali Farhadi. Segment-Phrase Table for Semantic Segmentation, Visual Entailment and Paraphrasing. ICCV, 2015.
Iasonas Kokkinos. Pusing the Boundaries of Boundary Detection Using deep Learning. ICLR 2016.
Niloufar Pourian, S. Karthikeyan, B.S. Manjunath. Weakly supervised graph based semantic segmentation by learning communities of image-parts. ICCV, 2015.
Nian Liu, Junwei Han, Dingwen Zhang, Shifeng Wen, Tianming Liu. Predicting Eye Fixations using Convolutional Neural Networks. CVPR, 2015.
Saurabh Singh, Derek Hoiem, David Forsyth. Learning a Sequential Search for Landmarks. CVPR, 2015.
Jimmy Lei Ba, Volodymyr Mnih, Koray Kavukcuoglu. Multiple Object Recognition with Visual Attention. ICLR, 2015.
Volodymyr Mnih, Nicolas Heess, Alex Graves, Koray Kavukcuoglu. Recurrent Models of Visual Attention. NIPS, 2014.
Maxime Oquab, Leon Bottou, Ivan Laptev, Josef Sivic. Is object localization for free? – Weakly-supervised learning with convolutional neural networks. CVPR, 2015.
Mircea Cimpoi, Subhransu Maji, Andrea Vedaldi. Deep Filter Banks for Texture Recognition and Segmentation. CVPR, 2015.
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. CVPR, 2017.
Leonid Pishchulin, Eldar Insafutdinov. Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
Xinlei Chen, C. Lawrence Zitnick
CVPR 2015
From Captions to Visual Concepts and Back
Hao Fang, Saurabh Gupta, Forrest Iandola, Rupesh Srivastava, Li Deng, Piotr Dollár, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick, Geoffrey Zweig
CVPR, 2015.
Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention
Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, Yoshua Bengio
arXiv:1502.03044 / ICML 2015
Phrase-based Image Captioning
Remi Lebret, Pedro O. Pinheiro, Ronan Collobert
arXiv:1502.03671 / ICML 2015
Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images
Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan L. Yuille
arXiv:1504.06692
Exploring Nearest Neighbor Approaches for Image Captioning
Jacob Devlin, Saurabh Gupta, Ross Girshick, Margaret Mitchell, C. Lawrence Zitnick
arXiv:1505.04467
Language Models for Image Captioning: The Quirks and What Works
Jacob Devlin, Hao Cheng, Hao Fang, Saurabh Gupta, Li Deng, Xiaodong He, Geoffrey Zweig, Margaret Mitchell
arXiv:1505.01809
Image Captioning with an Intermediate Attributes Layer
Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick
arXiv:1506.01144
Learning language through pictures
Grzegorz Chrupala, Akos Kadar, Afra Alishahi
arXiv:1506.03694
Describing Multimedia Content using Attention-based Encoder-Decoder Networks
Kyunghyun Cho, Aaron Courville, Yoshua Bengio
arXiv:1507.01053
Image Representations and New Domains in Neural Image Captioning
Jack Hessel, Nicolas Savva, Michael J. Wilber
arXiv:1508.02091
«Learning Query and Image Similarities with Ranking Canonical Correlation Analysis»
Ting Yao, Tao Mei, Chong-Wah Ngo
ICCV, 2015
Long-term Recurrent Convolutional Networks for Visual Recognition and Description
Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, Trevor Darrell
CVPR, 2015.
Translating Videos to Natural Language Using Deep Recurrent Neural Networks
Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko
arXiv:1412.4729.
Joint Modeling Embedding and Translation to Bridge Video and Language
Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li, Yong Rui
arXiv:1505.01861.
Sequence to Sequence—Video to Text
Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue, Raymond Mooney, Trevor Darrell, Kate Saenko
arXiv:1505.00487.
Describing Videos by Exploiting Temporal Structure
Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, Aaron Courville
arXiv:1502.08029 Генерация изображений с помощью свёрточных и рекуррентных сетей
Aäron van den Oord, Nal Kalchbrenner.
Без дополнительного контекста невозможно точно перевести этот текст.
Возможный вариант перевода:
Аарон ван ден Оорд, Нал Калхбреннер. Deepgaze: библиотека компьютерного зрения для взаимодействия человека и компьютера на основе CNNs
Приложения:
Учебники:
Блоги:
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )