自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 论坛 (1)
  • 收藏
  • 关注

原创 Siamese CBOW: Optimizing Word Embeddings for Sentence Representations

引言Siamese CBOW,来自Tom Kenter等的于2016年发的论文:Siamese CBOW: Optimizing Word Embeddings for Sentence Representations作者提到,当前的很多句向量的表示方法都是简单的用词向量的加和平均,这种方法表现出一定的有效性,但是并没有针对特定任务的句向量进行优化的方法。因此本文提出一种训练句向量的方法,借...

2019-04-15 17:29:48 566

原创 DECOUPLED WEIGHT DECAY REGULARIZATION

引言Adam作为一个常用的深度学习优化方法,提出来的时候论文里的数据表现都非常好,但实际在使用中发现了不少问题,在许多数据集上表现都不如SGDM这类方法。后续有许多工作针对Adam做了研究,之前整理过关于优化算法的发展历程:从Stochastic Gradient Descent到Adaptive Moment Estimation,里面也介绍了一些对于Adam效果不好的研究工作。这篇论文依...

2019-04-09 17:20:59 1138

原创 Reducing BERT Pre-Training Time from 3 Days to 76 Minutes

引言Bert在工业使用中表现相当优异,但是预训练时间非常的长。Bert的作者公开的记录是用了16块TPU训练了三天。本论文就是针对训练时间上进行的优化,提出了LAMB优化方式,在不损失训练精度的情况下,将BERT的训练时间缩短到了76分钟,如下:

2019-04-09 11:24:08 437

原创 Deep contextualized word representations

引言 这是2018年NAACL上的Best Paper,即是大名鼎鼎的ELMo,原文地址:https://arxiv.org/pdf/1802.05365.pdf对比传统Word2Vec这种形式的词向量,本文提出的模型是一种动态模型。在以往的词向量表示中,词都是一种静态的形式,无论在任何的上下文中都使用同一个向量。这种情况下很难表示一词多义的现象,而ELMo则可以通过上下文动态生成词向量,从理论上会是更好的模型,从实测效果来看在很多任务上也都达到了当时的SOTA成绩。

2019-04-04 09:49:04 502

空空如也

lpty的留言板

发表于 2020-01-02 最后回复 2020-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除