论文解读:CLIP - 从自然语言监督中学习可迁移的视觉模型
论文:Learning Transferable Visual Models From Natural Language Supervision (Radford et al., OpenAI, 2021)
论文地址:https://arxiv.org/pdf/2103.00020
代码:https://github.com/OpenAI/CLIP
Research Hub
本页面记录在 人工智能 (AI)、光电技术 (Optoelectronics)、材料分析 (Materials Analysis) 及 半导体物理 (Semiconductor Physics) 等领域的研究动态、学术笔记及深度思考,探索跨学科前沿技术的足迹。
论文:Learning Transferable Visual Models From Natural Language Supervision (Radford et al., OpenAI, 2021)
论文地址:https://arxiv.org/pdf/2103.00020
代码:https://github.com/OpenAI/CLIP
3D ResNet 对视频理解的重要性,很像 2D ResNet 对图像理解的重要性。它不是最早的 3D CNN,也不是最花哨的结构,但它非常关键地回答了一个问题:只要数据集足够大,3D CNN 能不能像 2D CNN 一样,通过更深的网络学到可迁移的通用表示?
论文:Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
BERT (Bidirectional Encoder Representations from Transformers) 是由 Google 团队在 2018 年提出的预训练语言模型底座。它是第一个基于 Transformer 架构的深层双向 Encoder。它的出现改变了自然语言处理(NLP)领域的范式,在发布时横扫了多项自然语言处理任务,在流行的 GLUE 基准上超过了当时所有的最强模型。
目前,基于 BERT 衍生的纯 Encoder 模型依然在 NLP 行业(尤其是文本分类、实体识别等自然语言理解任务 NLU)中占据着主导地位。
论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Transformer是2017年Google论文《Attention is All You Need》提出的一种模型结构,颠覆了通过RNN进行序列建模的思路,已被广泛应用于NLP各个领域,如出色的Bert、GPT都是基于Transformer模型。
DeepLabv1是在2015年发表,在此之前,图像分类、目标检测、语义分割等都基于DCNN模型发展,但DCNN会存在重复池化导致分辨率下降;位置信息丢失,难以恢复,分割结果粗糙,丢失细节等问题;故DeepLab系列对DCNN等问题进行改进。
论文:Semantic image segmentation with deep convolutional nets and fully connected CRFs
Mask R-CNN是一个小巧灵活的通用实例级分割框架,对图像进行目标检测,还可对每一个目标给出一个高质量的分割结果。它在Faster R-CNN基础之上进行扩展,并行地在bounding box recognition分支上添加一个用于预测目标掩模(object mask)的新分支。具有扩展性强、结构简单、准确度高、容易理解,是图像实例级分割的优秀模型。
论文:Mask R-CNN