资源
对学习过程中的数据集、框架、模型、论文、代码等进行整理,提供统一入口。
Keep Learning, Keep Growing, Keep Succeeding
欢迎大家在底部留言,提供其他资源链接,一起共建。
GPT
AIGC
Datasets |
Source | Description |
---|---|---|
LLama2 | https://huggingface.co/meta-llama | Meta开源LLama2 |
OPENAI-ChatGPT | https://openai.com/blog/chatgpt | 文本生成、对话 |
LLama | https://github.com/facebookresearch/llama | Facebook大大语言模型 |
Alpaca | https://github.com/tatsu-lab/stanford_alpaca | LLama改进版 |
Chinese-LLaMA-Alpaca | https://github.com/ymcui/Chinese-LLaMA-Alpaca | 中文LLaMA模型和指令精调的Alpaca大模型 |
ChatGLM | https://huggingface.co/THUDM | 清华ChatGLM |
IMAGE
Datasets |
Source | Description |
---|---|---|
DALL·E2 | https://openai.com/product/dall-e-2 | 文字生成图片,效果还可以。 |
Midjourney | https://www.midjourney.com/ | 生成的图片比较精致。 |
Stable Diffusion | stable_diffusion blog | 多模态图片生成 |
AUDIO
Datasets |
Source | Description |
---|---|---|
Whisper | https://openai.com/research/whisper | 语音识别,语音转文字。 |
数据集
数据集网站
Website |
Address | Description |
---|---|---|
超神经 | https://hyper.ai/datasets/ | 收集了数百个公开数据集资源,整理并提供相应的存储服务免费提供给相关从业人员进行下载 |
baai | https://data.baai.ac.cn/data | 若干数据集 |
指令微调(FineTuning)
Dataset |
Source | Description |
---|---|---|
openai human feedback | https://github.com/openai/following-instructions-human-feedback/tree/main/automatic-eval-samples | 自动摘要、数学计算式问答、机器翻译、阅读理解、情感计算、推理、问答系统 |
HuggingFace | https://huggingface.co/datasets | HuggingFace Datasets |
计算机视觉(CV)
Datasets |
Source | Description |
---|---|---|
MNIST | http://yann.lecun.com/exdb/mnist/ | 手写数字识别;计算机视觉入门级数据集,包含各种手写数字图片。 |
Fashion-MNIST | https://github.com/zalandoresearch/fashion-mnist | 服饰识别;MNIST数据集过于简单,Fashion-MNIST可替代MNIST数据集,作为机器学习与深度学习算法基准。 |
ImageNet | http://www.image-net.org | 图像识别;大规模数据集,几大经典CNN模型,AlexNet、VGG、GoogleNet、ResNet在ILSVRC大赛数据集。 |
MS-COCO | https://cocodataset.org | 目标检测、语义分割、图像标题生成;大规模的数据集。 |
CIFAR-10 | http://www.cs.toronto.edu/~kriz/cifar.html | 图像分类;10个类别,每个类别6000张图片,5w个训练图片、1w个测试图片。 |
SVHN | http://ufldl.stanford.edu/housenumbers/ | 目标检测、文字检测;街景门牌号数据集,来源于谷歌街景图片。 |
Open Images | https://storage.googleapis.com/ | 语义分割、目标检测、图像分类;V4-V7 |
LAION-5B | https://laion.ai/blog/laion-5b/ | the largest, freely accessible multi-modal dataset that currently exists.(目前最大的多模态开源数据集) |
自然语言处理(NLP)
Datasets |
Source | Description |
---|---|---|
ACL-IMDB | http://ai.stanford.edu/~amaas/data/sentiment/ | 电影评论数据集;大规模情感二分类数据集。 |
WordNet | https://wordnet.princeton.edu/ | 英语词库数据集 |
CLUECorpus2020 | https://github.com/CLUEbenchmark/CLUECorpus2020/ | 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料 |
MNBVC | https://github.com/esbatmop/MNBVC | 超大规模中文语料集,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。 |
模型
经典卷积神经网络模型(CNN)
Model |
Paper | Description |
---|---|---|
LeNet-5 | Gradient-Based Learning Applied to Document Recognition | Yann LeCun(杨立昆)官网LetNet-5介绍;1998年提出的CNN模型,主要用于手写字体识别,目前的CNN模型都没有逃出LetNet-5的卷积、池化、全连接架构。顶级大牛!!! |
AlexNet | ImageNet Classification with Deep Convolutional Neural Networks | Alex官网AlexNet介绍;2012年提出的CNN模型, ImageNet LSVRC-2010竞赛冠军,具有划时代意义,再次之前主要用传统机器学习方法SVM,此后,深度学习发展迅速。 |
VGG | Very Deep Convolutional Networks for Large-scale Image Recognition | Karen Simonyan,ImageNet LSVRC-2014竞赛亚军,VGG结构简单,应用性强,广受喜爱。VGG-16、VGG-19效果较好。 |
GoogleNet | Going deeper with convolutions | ImageNet LSVRC-2014竞赛冠军,22层网络,Top5错误率比VGG低约0.6个百分点。(结构有点复杂,不如VGG通用) |
ResNet | Deep Residual Learning for Image Recognition | 大名鼎鼎的残差神经网络,ImageNet LSVRC-2015竞赛冠军,152层残差网络结构,将Top5错误率降到3.57,已经超过人眼水平,此后ImageNet大赛不再举办。 |
目标检测模型(ObjectDetection)
Model |
Paper | Description |
---|---|---|
R-CNN | Rich feature hierarchies for accurate object detection and semantic segmentation | Two Stage开山之作,深度学习与传统机器学习结合,先选中2000个候选区域,AlexNet提取特征向量,SVM二分类,识别区域是否有目标;训练回归器,选中区域目标位置。测试集上能达到58.5%准确率,当时的王者,缺点是慢,且空间消耗大。 |
Fast R-CNN | Fast R-CNN | 基于R-CNN和SPPNets,进行模型改进。不需要再生成2000个候选区域,只需要特征提取一次,使用selective search生成2000个区域候选框,再CNN卷积,Rol池化形成特定长度特征向量,送入全连接FC,Softmax,输出定位信息。速度较R-CNN有提升,但依旧慢。 |
Faster R-CNN | Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks | 结构上将特征抽取,region proposal提取,bbox regression(包围边框回归),分类都整合到了一个网络中,综合性能有较大提高,检测速度提升较大。 |
YOLO v1 | You Only Look Once: Unified, Real-Time Object Detection | One Stage开山之作,将检测任务当做回归问题处理。优点是速度快,但精度下降。 |
YOLO v2 | YOLO9000: Better, Faster, Stronger | YOLO v1改进,使用了新的网络模型Darknet-19,加入了BN层,起到正则化效果;使用了高分辨率分类器;带Anchor Boxes的卷积;对边框进行K-Means聚类,可以直接定位预测。速度快,准确率较YOLO V1有提升,精度比SSD差。 |
YOLO v3 | YOLOv3: An Incremental Improvement | YOLO v2改进,使用新网络结构DarkNet-53,使用逻辑回归替代softmax作为分类器,融合FPN,实现多尺度检测。比较经典,在速度和准确率上都有提升,性能较好。也是作者的封笔之作,最后作者的自述比较有意思。In closing, do not @ me.(quit twitter)[破涕为笑] |
YOLO v4 | YOLOv4: Optimal Speed and Accuracy of Object Detection | 将CV界大量研究成果进行了集成,提出了一套目标检测框架:输入、骨干、特征融合、输出;速度和精度上都有较大提升。 |
YOLO v5 | YOLOv5 Source | YOLO4发布两个月后,Glenn Jocher发布YOLO5,只有框架源码,无论文。架构上无创新,但号称模型大小比YOLO4小了近90%,但速度与YOLOv4不分伯仲。 |
YOLO v6 | YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications | 美团视觉智能部研发的目标检测框架,致力于工业应用。专注于检测精度和推理效率。Github/YOLOV6 |
YOLO v7 | YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors | 总结就是目前(2022)模型最小、速度最快、精度最高的目标检测模型。Github/YOLOV7 |
SSD | SSD: Single Shot MultiBox Detector | 是一种One Stage的检测模型,相比于R-CNN系列模型上要简单许多。其精度与Faster R-CNN相匹敌,而速度达到59FPS,速度上超过Faster R-CNN |
生成对抗网络(GAN)
Model |
Paper | Description |
---|---|---|
DCGANs | Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks | 卷积层与GAN相结合;并讨论了GAN特征的可视化、潜在空间插值、利用判别器特征来训练分类器、评估结果等问题。 |
Improved Techniques for Training GANs | Improved Techniques for Training GANs | 分析了DCGAN,改进GAN训练的技术。 |
Conditional GANs | Conditional Generative Adversarial Nets | 条件GAN是最先进的GAN之一,论文展示了如何整合数据的类标签,从而使 GAN 训练更加稳定。 |
PG-GAN | Progressive Growing of GANs for Improved Quality, Stability, and Variation | 作者表示,这种方式不仅稳定了训练,GAN 生成的图像也是迄今为止质量最好的。 |
BigGAN | Large Scale GAN Training for High Fidelity Natural Image Synthesis | BigGAN模型基于ImageNet生成图像质量最高的模型之一。 |
StyleGAN | A Style-Based Generator Architecture for Generative Adversarial Networks | StyleGAN 模型非常先进,利用了潜在空间控制。 |
CycleGAN | Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks | CycleGAN更具体地处理了没有成对训练样本的image-to-image转换的情况。CycleGAN有很多很酷的应用,比如超分辨率,风格转换,例如将马的图像变成斑马。 |
Pix2Pix | Image-to-Image Translation with Conditional Adversarial Networks | Pix2Pix是另一种图像到图像转换的GAN模型。Pix2Pix有很多很酷的应用,比如将草图转换成逼真的照片。 |
StackGAN | StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks | 与Conditional GAN 和Progressively Growing GANs最为相似。StackGAN是从自然语言文本生成图像。(牛) |
GAN | Generative Adversarial Networks | 定义了GAN框架,并讨论了“非饱和”损失函数。论文在MNIST、TFD和CIFAR-10图像数据集上对GAN的有效性进行了实验验证。 |
工具
标注工具
Name |
Source | Description |
---|---|---|
labelImg | labelImg | 开源的图像标注工具,标签可用于分类和目标检测。 |
labelme | labelme | 图像语义分割标注工具 |
VIA | VGG Image Annotator (VIA) | VGG图像注释器,可对图像、音频、视频标注。 |
EasyDL | EasyDL | 百度推出AI开发平台,可采集、标注、清洗、训练。 |
分词工具
Name |
Source | Description |
---|---|---|
jieba | jieba | 中文分词(精确模式、全模式、搜索引擎模式)、标注组件 |
顶会
Conference |
Description | Field |
---|---|---|
ACL | Association of Computational Linguistics,每年开;计算语言学/自然语言处理方面最好的会议 | 人工智能/计算语言学 |
IJCAI | International Joint Conference on Artificial Intelligence, 人工智能领域顶级国际会议,论文接受率18%左右 | 人工智能 |
AAAI | American Association for Artificial Intelligence, 美国人工智能学会AAAI的年会,该领域的顶级会议 | 人工智能 |
PRICAI | Pacific Rim International Conference on Artificial Intelligence, 亚太人工智能国际会议 | 人工智能 |
ECCV | European Conference on Computer Vision, 领域顶级国际会议,录取率25%左右,2年一次,中国大陆每年论文数不超过20篇 | 模式识别/计算机视觉/多媒体计算 |
ICML | International Conference on Machine Learning, 领域顶级国际会议,录取率25%左右,2年一次,目前完全国内论文很少 | 模式识别/计算机学习 |
NIPS | Neural Information Processing Systems, 领域顶级国际会议,录取率20%左右,每年一次,目前完全国内论文极少(不超过5篇) | 神经计算/机器学习 |
ACM MM | ACM Multimedia Conference, 领域顶级国际会议,全文的录取率极低,Poster较容易 | 多媒体技术/数据压缩 |
IEEE ICCV | International Conference on Computer Vision, 领域顶级国际会议,录取率20%左右,2年一次,中国大陆每年论文数不超过10篇 | 计算机视觉/模式识别/多媒体计算 |
IEEE CVPR | International Conference on Computer Vision and Pattern Recognition, 领域顶级国际会议,录取率25%左右,每年一次,中国大陆每年论文数不超过20篇 | 模式识别/计算机视觉/多媒体计算 |
IEEE ICIP | International conference on Image Processing, 图像处理领域最具影响力国际会议,一年一次 | 图像处理 |
IEEE ICME | International Conference on Multimedia and Expo, 多媒体领域重要国际会议,一年一次 | 多媒体技术 |
优秀网站
优秀学习网站
网站 |
Description | Field |
---|---|---|
书栈网 | https://www.bookstack.cn | 计算机领域相关书籍、文档资料,很齐全 |
优秀工具网站
网站 |
Description | Field |
---|---|---|
即时工具 | https://www.67tool.com | 工具集合网站,200多个工具,图片处理、视频处理、文档处理等。 |
LaTeX公式编辑器 | https://www.latexlive.com | LaTeX公式编辑器 |
CNN Explainer | cnn-explainer | Learn Convolutional Neural Network (CNN) in your browser! |