Research Hub
本页面记录在 人工智能 (AI)、光电技术 (Optoelectronics)、材料分析 (Materials Analysis) 及 半导体物理 (Semiconductor Physics) 等领域的研究动态、学术笔记及深度思考,探索跨学科前沿技术的足迹。
BERT (Bidirectional Encoder Representations from Transformers) 是由 Google 团队在 2018 年提出的预训练语言模型底座。它是第一个基于 Transformer 架构的深层双向 Encoder。它的出现改变了自然语言处理(NLP)领域的范式,在发布时横扫了多项自然语言处理任务,在流行的 GLUE 基准上超过了当时所有的最强模型。
目前,基于 BERT 衍生的纯 Encoder 模型依然在 NLP 行业(尤其是文本分类、实体识别等自然语言理解任务 NLU)中占据着主导地位。
论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Transformer是2017年Google论文《Attention is All You Need》提出的一种模型结构,颠覆了通过RNN进行序列建模的思路,已被广泛应用于NLP各个领域,如出色的Bert、GPT都是基于Transformer模型。
DeepLabv1是在2015年发表,在此之前,图像分类、目标检测、语义分割等都基于DCNN模型发展,但DCNN会存在重复池化导致分辨率下降;位置信息丢失,难以恢复,分割结果粗糙,丢失细节等问题;故DeepLab系列对DCNN等问题进行改进。
论文:Semantic image segmentation with deep convolutional nets and fully connected CRFs
Mask R-CNN是一个小巧灵活的通用实例级分割框架,对图像进行目标检测,还可对每一个目标给出一个高质量的分割结果。它在Faster R-CNN基础之上进行扩展,并行地在bounding box recognition分支上添加一个用于预测目标掩模(object mask)的新分支。具有扩展性强、结构简单、准确度高、容易理解,是图像实例级分割的优秀模型。
论文:Mask R-CNN
U-NetU-Net是2015年发表的用于生物医学图像分割的模型,该模型简单、高效、容易理解、容易定制,能在相对较小的数据集上实现学习。
论文:U-Net: Convolutional Networks for Biomedical Image Segmentation
YOLO(You Only Look Once ),创造性的将物体检测任务直接当作回归问题来处理,将候选区和检测两个阶段合二为一。目前YOLO版本已经更新到YOLO7,另外还有许多YOLO变种。
SSD是一种One Stage的检测模型,相比于R-CNN系列模型上要简单许多。其精度与Faster R-CNN相匹敌,而速度达到59FPS,速度上超过Faster R-CNN。
Faster R-CNN结构上将特征抽取,region proposal提取,bbox regression(包围边框回归),分类都整合到了一个网络中,综合性能有较大提高,检测速度提升较大。
论文:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Fast R-CNN基于R-CNN和SPPNets,进行模型改进。不需要再生成2000个候选区域,只需要特征提取一次,使用selective search生成2000个区域候选框,再CNN卷积,Rol池化形成特定长度特征向量,送入全连接FC,Softmax,输出定位信息。速度较R-CNN有提升,但依旧慢。
论文:Fast R-CNN