对学习过程中的数据集、框架、模型、论文、代码等进行整理,提供统一入口。
Keep Learning, Keep Growing, Keep Succeeding

欢迎大家在底部留言,提供其他资源链接,一起共建。

GPT

AIGC

Datasets
Source Description
LLama2 https://huggingface.co/meta-llama Meta开源LLama2
OPENAI-ChatGPT https://openai.com/blog/chatgpt 文本生成、对话
LLama https://github.com/facebookresearch/llama Facebook大大语言模型
Alpaca https://github.com/tatsu-lab/stanford_alpaca LLama改进版
Chinese-LLaMA-Alpaca https://github.com/ymcui/Chinese-LLaMA-Alpaca 中文LLaMA模型和指令精调的Alpaca大模型
ChatGLM https://huggingface.co/THUDM 清华ChatGLM

IMAGE

Datasets
Source Description
DALL·E2 https://openai.com/product/dall-e-2 文字生成图片,效果还可以。
Midjourney https://www.midjourney.com/ 生成的图片比较精致。
Stable Diffusion stable_diffusion blog 多模态图片生成

AUDIO

Datasets
Source Description
Whisper https://openai.com/research/whisper 语音识别,语音转文字。

数据集

数据集网站

Website
Address Description
超神经 https://hyper.ai/datasets/ 收集了数百个公开数据集资源,整理并提供相应的存储服务免费提供给相关从业人员进行下载
baai https://data.baai.ac.cn/data 若干数据集

指令微调(FineTuning)

Dataset
Source Description
openai human feedback https://github.com/openai/following-instructions-human-feedback/tree/main/automatic-eval-samples 自动摘要、数学计算式问答、机器翻译、阅读理解、情感计算、推理、问答系统
HuggingFace https://huggingface.co/datasets HuggingFace Datasets

计算机视觉(CV)

Datasets
Source Description
MNIST http://yann.lecun.com/exdb/mnist/ 手写数字识别;计算机视觉入门级数据集,包含各种手写数字图片。
Fashion-MNIST https://github.com/zalandoresearch/fashion-mnist 服饰识别;MNIST数据集过于简单,Fashion-MNIST可替代MNIST数据集,作为机器学习与深度学习算法基准。
ImageNet http://www.image-net.org 图像识别;大规模数据集,几大经典CNN模型,AlexNet、VGG、GoogleNet、ResNet在ILSVRC大赛数据集。
MS-COCO https://cocodataset.org 目标检测、语义分割、图像标题生成;大规模的数据集。
CIFAR-10 http://www.cs.toronto.edu/~kriz/cifar.html 图像分类;10个类别,每个类别6000张图片,5w个训练图片、1w个测试图片。
SVHN http://ufldl.stanford.edu/housenumbers/ 目标检测、文字检测;街景门牌号数据集,来源于谷歌街景图片。
Open Images https://storage.googleapis.com/ 语义分割、目标检测、图像分类;V4-V7
LAION-5B https://laion.ai/blog/laion-5b/ the largest, freely accessible multi-modal dataset that currently exists.(目前最大的多模态开源数据集)

自然语言处理(NLP)

Datasets
Source Description
ACL-IMDB http://ai.stanford.edu/~amaas/data/sentiment/ 电影评论数据集;大规模情感二分类数据集。
WordNet https://wordnet.princeton.edu/ 英语词库数据集
CLUECorpus2020 https://github.com/CLUEbenchmark/CLUECorpus2020/ 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料
MNBVC https://github.com/esbatmop/MNBVC 超大规模中文语料集,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。

模型

经典卷积神经网络模型(CNN)

Model
Paper Description
LeNet-5 Gradient-Based Learning Applied to Document Recognition Yann LeCun(杨立昆)官网LetNet-5介绍;1998年提出的CNN模型,主要用于手写字体识别,目前的CNN模型都没有逃出LetNet-5的卷积、池化、全连接架构。顶级大牛!!!
AlexNet ImageNet Classification with Deep Convolutional Neural Networks Alex官网AlexNet介绍;2012年提出的CNN模型, ImageNet LSVRC-2010竞赛冠军,具有划时代意义,再次之前主要用传统机器学习方法SVM,此后,深度学习发展迅速。
VGG Very Deep Convolutional Networks for Large-scale Image Recognition Karen Simonyan,ImageNet LSVRC-2014竞赛亚军,VGG结构简单,应用性强,广受喜爱。VGG-16、VGG-19效果较好。
GoogleNet Going deeper with convolutions ImageNet LSVRC-2014竞赛冠军,22层网络,Top5错误率比VGG低约0.6个百分点。(结构有点复杂,不如VGG通用)
ResNet Deep Residual Learning for Image Recognition 大名鼎鼎的残差神经网络,ImageNet LSVRC-2015竞赛冠军,152层残差网络结构,将Top5错误率降到3.57,已经超过人眼水平,此后ImageNet大赛不再举办。

目标检测模型(ObjectDetection)

Model
Paper Description
R-CNN Rich feature hierarchies for accurate object detection and semantic segmentation Two Stage开山之作,深度学习与传统机器学习结合,先选中2000个候选区域,AlexNet提取特征向量,SVM二分类,识别区域是否有目标;训练回归器,选中区域目标位置。测试集上能达到58.5%准确率,当时的王者,缺点是慢,且空间消耗大。
Fast R-CNN Fast R-CNN 基于R-CNN和SPPNets,进行模型改进。不需要再生成2000个候选区域,只需要特征提取一次,使用selective search生成2000个区域候选框,再CNN卷积,Rol池化形成特定长度特征向量,送入全连接FC,Softmax,输出定位信息。速度较R-CNN有提升,但依旧慢。
Faster R-CNN Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 结构上将特征抽取,region proposal提取,bbox regression(包围边框回归),分类都整合到了一个网络中,综合性能有较大提高,检测速度提升较大。
YOLO v1 You Only Look Once: Unified, Real-Time Object Detection One Stage开山之作,将检测任务当做回归问题处理。优点是速度快,但精度下降。
YOLO v2 YOLO9000: Better, Faster, Stronger YOLO v1改进,使用了新的网络模型Darknet-19,加入了BN层,起到正则化效果;使用了高分辨率分类器;带Anchor Boxes的卷积;对边框进行K-Means聚类,可以直接定位预测。速度快,准确率较YOLO V1有提升,精度比SSD差。
YOLO v3 YOLOv3: An Incremental Improvement YOLO v2改进,使用新网络结构DarkNet-53,使用逻辑回归替代softmax作为分类器,融合FPN,实现多尺度检测。比较经典,在速度和准确率上都有提升,性能较好。也是作者的封笔之作,最后作者的自述比较有意思。In closing, do not @ me.(quit twitter)[破涕为笑]
YOLO v4 YOLOv4: Optimal Speed and Accuracy of Object Detection 将CV界大量研究成果进行了集成,提出了一套目标检测框架:输入、骨干、特征融合、输出;速度和精度上都有较大提升。
YOLO v5 YOLOv5 Source YOLO4发布两个月后,Glenn Jocher发布YOLO5,只有框架源码,无论文。架构上无创新,但号称模型大小比YOLO4小了近90%,但速度与YOLOv4不分伯仲。
YOLO v6 YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications 美团视觉智能部研发的目标检测框架,致力于工业应用。专注于检测精度和推理效率。Github/YOLOV6
YOLO v7 YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors 总结就是目前(2022)模型最小、速度最快、精度最高的目标检测模型。Github/YOLOV7
SSD SSD: Single Shot MultiBox Detector 是一种One Stage的检测模型,相比于R-CNN系列模型上要简单许多。其精度与Faster R-CNN相匹敌,而速度达到59FPS,速度上超过Faster R-CNN

生成对抗网络(GAN)

Model
Paper Description
DCGANs Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks 卷积层与GAN相结合;并讨论了GAN特征的可视化、潜在空间插值、利用判别器特征来训练分类器、评估结果等问题。
Improved Techniques for Training GANs Improved Techniques for Training GANs 分析了DCGAN,改进GAN训练的技术。
Conditional GANs Conditional Generative Adversarial Nets 条件GAN是最先进的GAN之一,论文展示了如何整合数据的类标签,从而使 GAN 训练更加稳定。
PG-GAN Progressive Growing of GANs for Improved Quality, Stability, and Variation 作者表示,这种方式不仅稳定了训练,GAN 生成的图像也是迄今为止质量最好的。
BigGAN Large Scale GAN Training for High Fidelity Natural Image Synthesis BigGAN模型基于ImageNet生成图像质量最高的模型之一。
StyleGAN A Style-Based Generator Architecture for Generative Adversarial Networks StyleGAN 模型非常先进,利用了潜在空间控制。
CycleGAN Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks CycleGAN更具体地处理了没有成对训练样本的image-to-image转换的情况。CycleGAN有很多很酷的应用,比如超分辨率,风格转换,例如将马的图像变成斑马。
Pix2Pix Image-to-Image Translation with Conditional Adversarial Networks Pix2Pix是另一种图像到图像转换的GAN模型。Pix2Pix有很多很酷的应用,比如将草图转换成逼真的照片。
StackGAN StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 与Conditional GAN 和Progressively Growing GANs最为相似。StackGAN是从自然语言文本生成图像。(牛)
GAN Generative Adversarial Networks 定义了GAN框架,并讨论了“非饱和”损失函数。论文在MNIST、TFD和CIFAR-10图像数据集上对GAN的有效性进行了实验验证。

工具

标注工具

Name
Source Description
labelImg labelImg 开源的图像标注工具,标签可用于分类和目标检测。
labelme labelme 图像语义分割标注工具
VIA VGG Image Annotator (VIA) VGG图像注释器,可对图像、音频、视频标注。
EasyDL EasyDL 百度推出AI开发平台,可采集、标注、清洗、训练。

分词工具

Name
Source Description
jieba jieba 中文分词(精确模式、全模式、搜索引擎模式)、标注组件

顶会

Conference
Description Field
ACL Association of Computational Linguistics,每年开;计算语言学/自然语言处理方面最好的会议 人工智能/计算语言学
IJCAI International Joint Conference on Artificial Intelligence, 人工智能领域顶级国际会议,论文接受率18%左右 人工智能
AAAI American Association for Artificial Intelligence, 美国人工智能学会AAAI的年会,该领域的顶级会议 人工智能
PRICAI Pacific Rim International Conference on Artificial Intelligence, 亚太人工智能国际会议 人工智能
ECCV European Conference on Computer Vision, 领域顶级国际会议,录取率25%左右,2年一次,中国大陆每年论文数不超过20篇 模式识别/计算机视觉/多媒体计算
ICML International Conference on Machine Learning, 领域顶级国际会议,录取率25%左右,2年一次,目前完全国内论文很少 模式识别/计算机学习
NIPS Neural Information Processing Systems, 领域顶级国际会议,录取率20%左右,每年一次,目前完全国内论文极少(不超过5篇) 神经计算/机器学习
ACM MM ACM Multimedia Conference, 领域顶级国际会议,全文的录取率极低,Poster较容易 多媒体技术/数据压缩
IEEE ICCV International Conference on Computer Vision, 领域顶级国际会议,录取率20%左右,2年一次,中国大陆每年论文数不超过10篇 计算机视觉/模式识别/多媒体计算
IEEE CVPR International Conference on Computer Vision and Pattern Recognition, 领域顶级国际会议,录取率25%左右,每年一次,中国大陆每年论文数不超过20篇 模式识别/计算机视觉/多媒体计算
IEEE ICIP International conference on Image Processing, 图像处理领域最具影响力国际会议,一年一次 图像处理
IEEE ICME International Conference on Multimedia and Expo, 多媒体领域重要国际会议,一年一次 多媒体技术

优秀网站

优秀学习网站

网站
Description Field
书栈网 https://www.bookstack.cn 计算机领域相关书籍、文档资料,很齐全

优秀工具网站

网站
Description Field
即时工具 https://www.67tool.com 工具集合网站,200多个工具,图片处理、视频处理、文档处理等。
LaTeX公式编辑器 https://www.latexlive.com LaTeX公式编辑器
CNN Explainer cnn-explainer Learn Convolutional Neural Network (CNN) in your browser!