On Attention Redundancy, A Comprehensive Study 论文笔记 On Attention Redundancy: A Comprehensive Study 论文笔记论文主要信息 标题:On Attention Redundancy: A Comprehensive Study 作者:Yuchen Bian, Jiaji Huang, Xingyu Cai, Jiahong Yuan, and Kenneth Church. 机构:Baidu Researc 2022-04-15 论文阅读笔记 深度学习 自然语言处理 NLP Transformer 论文笔记 剪枝 Pruning
Analyzing Multi-Head Self-Attention 论文笔记 Analyzing Multi-Head Self-Attention 论文笔记论文主要信息 标题:Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned 作者:Elena Voita, David Talbot, Fedor Moiseev, Rico 2022-04-12 论文阅读笔记 深度学习 自然语言处理 NLP Transformer 论文笔记 剪枝 Pruning
Pruning 泛读论文笔记 Pruning 泛读论文笔记目录 序号 Tree Type Short 发表日期 会议期刊 论文名 代码链接 备注 1 Pruning NLP压缩 2019.10.14 Arxiv Structured Pruning of a BERT-based Question Answering Model 2 Pruning NLP压缩 RPP 2019.9.27 Arxiv Re 2022-04-03 论文阅读笔记 深度学习 自然语言处理 NLP Transformer 论文笔记 BERT 剪枝 Pruning 模型压缩
BERT 论文笔记 BERT 论文笔记论文主要信息 标题:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 机构:Google AI Language 来源:NAACL-HLT 2 2022-03-26 论文阅读笔记 深度学习 自然语言处理 NLP Transformer 论文笔记 BERT
GPT、GPT-2、GPT-3 论文笔记 GPT、GPT-2、GPT-3 论文笔记论文主要信息 标题: Improving Language Understanding by Generative Pre-Training(GPT) Language Models are Unsupervised Multitask Learners (GPT-2) Language Models are Few-Shot Learners(GPT-3 2022-03-26 论文阅读笔记 深度学习 自然语言处理 NLP Transformer 论文笔记 GPT
Transformer 论文笔记 Transformer 论文笔记论文主要信息 标题:Attention Is All You Need 作者:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin 机构:Google Brain, Google 2022-03-12 论文阅读笔记 深度学习 自然语言处理 NLP Transformer 论文笔记
ResNet 论文笔记 ResNet 论文笔记论文主要信息 标题:Deep Residual Learning for Image Recognition 简称:ResNet 作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun 机构:Microsoft Research 来源:CVPR 2015 代码:https://github.com/pytorch/visio 2022-03-06 论文阅读笔记 深度学习 论文笔记 计算机视觉 CV ResNet
《动手学深度学习》学习笔记 Ch.2 - 预备知识 (2.4-2.7) 2.4. 微积分我们可以将拟合模型的任务分解为两个关键问题: 优化(optimization):用模型拟合观测数据的过程; 泛化(generalization):数学原理和实践者的智慧,能够指导我们生成出有效性超出用于训练的数据集本身的模型。 2.4.1. 导数和微分假设我们有一个函数$f:R^n→R$,其输入和输出都是标量。 如果ff的导数存在,这个极限被定义为$$f’(x) = \lim_ 2022-02-25 《动手学深度学习》学习笔记 深度学习 学习笔记
《动手学深度学习》学习笔记 Ch.2 - 预备知识 (2.1-2.3) 2. 预备知识要学习深度学习,首先需要先掌握一些基本技能。 所有机器学习方法都涉及从数据中提取信息。 因此,我们先学习一些关于数据的实用技能,包括存储、操作和预处理数据。 2.1. 数据操作首先,我们介绍$n$维数组,也称为张量(tensor)。 使用过Python中NumPy计算包的读者会对本部分很熟悉。 无论使用哪个深度学习框架,它的张量类(在MXNet中为ndarray, 在PyTorch和 2022-02-22 《动手学深度学习》学习笔记 深度学习 学习笔记
《动手学深度学习》学习笔记 Ch.1 - 前言 1. 前言1.1. 日常生活中的机器学习如图所示,训练过程通常包含如下步骤: 从一个随机初始化参数的模型开始,这个模型基本毫不“智能”。 获取一些数据样本(例如,音频片段以及对应的{是,否}{是,否}标签)。 调整参数,使模型在这些样本中表现得更好。 重复第2步和第3步,直到模型在任务中的表现令你满意。 1.2. 关键组件 我们可以学习的数据(data)。 如何转换数据的模型(model)。 2022-02-20 《动手学深度学习》学习笔记 深度学习 学习笔记