自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 论坛 (1)
  • 收藏
  • 关注

原创 Some papers about NLP

Attention1、Neural Machine Translation by Jointly Learning to Align and Translate2、Effective Approaches to Attention-based Neural Machine Translation3、ABCNN: Attention-Based Convolutional Neural Net...

2019-01-14 19:38:44 573

原创 Siamese CBOW: Optimizing Word Embeddings for Sentence Representations

引言Siamese CBOW,来自Tom Kenter等的于2016年发的论文:Siamese CBOW: Optimizing Word Embeddings for Sentence Representations作者提到,当前的很多句向量的表示方法都是简单的用词向量的加和平均,这种方法表现出一定的有效性,但是并没有针对特定任务的句向量进行优化的方法。因此本文提出一种训练句向量的方法,借...

2019-04-15 17:29:48 566

原创 DECOUPLED WEIGHT DECAY REGULARIZATION

引言Adam作为一个常用的深度学习优化方法,提出来的时候论文里的数据表现都非常好,但实际在使用中发现了不少问题,在许多数据集上表现都不如SGDM这类方法。后续有许多工作针对Adam做了研究,之前整理过关于优化算法的发展历程:从Stochastic Gradient Descent到Adaptive Moment Estimation,里面也介绍了一些对于Adam效果不好的研究工作。这篇论文依...

2019-04-09 17:20:59 1138

原创 Reducing BERT Pre-Training Time from 3 Days to 76 Minutes

引言Bert在工业使用中表现相当优异,但是预训练时间非常的长。Bert的作者公开的记录是用了16块TPU训练了三天。本论文就是针对训练时间上进行的优化,提出了LAMB优化方式,在不损失训练精度的情况下,将BERT的训练时间缩短到了76分钟,如下:

2019-04-09 11:24:08 437

原创 Deep contextualized word representations

引言 这是2018年NAACL上的Best Paper,即是大名鼎鼎的ELMo,原文地址:https://arxiv.org/pdf/1802.05365.pdf对比传统Word2Vec这种形式的词向量,本文提出的模型是一种动态模型。在以往的词向量表示中,词都是一种静态的形式,无论在任何的上下文中都使用同一个向量。这种情况下很难表示一词多义的现象,而ELMo则可以通过上下文动态生成词向量,从理论上会是更好的模型,从实测效果来看在很多任务上也都达到了当时的SOTA成绩。

2019-04-04 09:49:04 502

原创 Identity Mappings in Deep Residual Networks

引言ResNet来自2015年he等人的paper:Deep Residual Learning for Image Recognition

2019-03-21 10:23:36 548

原创 从Stochastic Gradient Descent到Adaptive Moment Estimation

引言深度学习优化算法,基本的发展历程就是:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam当说到优化算法时,我们说的是什么?优化算法对于优化算法,给定一个具有参数θ的目标函数,一般会定义为损失函数,

2019-02-18 14:47:25 1144

原创 Taylor Formula与Gradient Descent

Taylor Formula泰勒公式,它的一般形式如下:一般希望将复杂形式的函数用较为简单的方式来表示,另一种表述便是,用量上的复杂来解决质上的困难。那为什么泰勒展开式是这种形式的?上面说要用简单的形式表示复杂函数,那么如何选择表达式呢?类比切圆法,是不是可以用局部的线性近似来表示整体,假如有函数y=x3y=x^3y=x3,自变量的变化量为ΔxΔxΔx,则:Δy=(x+Δx)3−x3=...

2019-02-15 15:14:00 247

原创 Internal Covariate Shift与Normalization

引言Batch norm在深度学习中已经是一个常用且有效的方法,用来加速网络收敛及防止梯度消失等神经网络常见的问题,那么batch norm为什么有效呢?从源头出发,神经网络难以训练的原因是什么?Internal Covariate Shift深度神经网络涉及到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化,通过层层叠加,高层的输入分布变化会非常剧烈,这就使得高层需要不...

2019-02-13 15:02:39 9655 8

原创 An Information Retrieval Approach to Short Text Conversation

引言Hang Li 等发在2014年arxiv上的文章,原文地址:https://arxiv.org/pdf/1408.6988.pdf基于新浪微博的数据集做的短文本单轮QA,从论文名可以看到,这是基于检索的方式做的,作者称之为short text conversation (STC)。大概流程是先做Retrieval召回candidate pairs,之后对待定数据做人工标注,再对candi...

2019-02-01 17:10:34 582

原创 Protege、D2RQ、JENA与SPARQL

引言关于的知识图谱的相关概念在从语义网络到知识图谱这篇博文中有简单的描述,下面介绍一下在知识图谱实际使用中的一些工具。数据来源于The Movie Database (TMDb)抓取的电影数据,统计如下:演员数量:505人电影数量:4518部电影类型:19类人物与电影的关系:14451电影与类型的关系:7898演员的基本信息包括:姓名、英文名、出生日期、死亡日期、出生地、...

2019-01-25 19:12:58 3026 4

原创 从语义网络到知识图谱

引言知识图谱,目前来说也没有一个特别明确的定义,“Exploiting Linked Data and Knowledge Graphs in Large Organisations”书中的描述如下:A knowledge graph consists of a set of interconnected typed entities and their attributes.在我的另一...

2019-01-24 17:07:16 4468

原创 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

引言Google在2018年发出来的论文,原文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

2019-01-15 19:29:32 1434

转载 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

原文:张俊林–从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史引言Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆...

2019-01-11 19:55:50 366

原创 Attention Is All You Need

引言google 在2017年发布的一篇论文,即是transformer,原文地址:Attention Is All You Need

2019-01-07 21:59:16 1131

原创 ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs

引言Wenpeng Yin等发表在arXiv上的论文,原文地址:地址这应该是第一篇提出Attention用于CNN的文章,主要用来解决句子对的问题,作者在answer selection (AS),、paraphrase identification(PI)、textual entailment (TE)三个任务上进行实验,均取得了不错的结果。模型...

2019-01-02 17:36:34 897

原创 Effective Approaches to Attention-based Neural Machine Translation

引言Minh-Thang Luong等在2015年arXiv上的论文,原文地址:地址这是继Bahdanau提出attention用于NLP的后续工作,作者提出了两种新的,相对于前面工作简单但有效的网络,一种称为global方法,实现上与Bahdanau使用的方式很相似,在每一次生成目标词时,都需要所有对源语句隐藏状态计算相似度,但相对来说更为直接简单;另一种称为local方法,不同的是在计算时...

2018-12-28 10:45:54 1223

原创 Neural Machine Translation by Jointly Learning to Align and Translate

引言Dzmitry Bahdanau等人在2016年arXiv上的paper,原文地址arXiv:1409.0473v7 [cs.CL] 19 May 2016这篇应该是最早将Attention机制用到NLP中的论文,作者提到神经网络机器翻译的目标是训练一个单一庞大的网络去直接生成翻译结果,相比统计机器翻译由各个小组件进行结合有很大不同。而一般的神经网络机器翻译模型都是由一个encoder与...

2018-12-19 17:33:04 293

原创 A Convolutional Neural Network for Modelling Sentences

引言Nal Kalchbrenner等人在2014年arXiv上的paper,原文地址:arXiv:1404.2188v1 [cs.CL] 8 Apr 2014。自然语言处理的基础问题在于句子的语义表示,其他特定的任务如分类等都是在语义表示的基础上进行高层次的处理,所以如何对句子进行表达就成为了核心问题。针对目前存在的模型,作者提出了DCNN–Dynamic Convolutional Ne...

2018-12-11 23:53:30 1401

原创 Recurrent Neural Network for Text Classification with Multi-Task Learning

引言Pengfei Liu等人在2016年的IJCAI上发表的论文,论文提到已存在的网络都是针对单一任务进行训练,但是这种模型都存在问题,即缺少标注数据,当然这是任何机器学习任务都面临的问题。为了应对数据量少,常用的方法是使用一个无监督的预训练模型,比如词向量,实验中也取得了不错的效果,但这样的方法都是间接改善网络效果。作者提出了一种新的方法,将多个任务联合起来训练,用来直接对网络进行改善,...

2018-12-05 17:34:04 2038

原创 A Sensitivity Analysis of Convolutional Neural Networks for Sentence Classification

引言Ye Zhang在2016年挂在arXiv上的论文,从名字大概可以看出来,这是一篇CNN调参指南。概述模型方面用的是单层CNN,主要是CNN用做文本分类方面的研究,模型结构如下所示:上述模型来自Convolutional Neural Networks for Sentence Classification,详细的介绍可以参考:博文内容Baseline Models为了跟CNN...

2018-11-19 23:52:09 1684

原创 Convolutional Neural Networks for Sentence Classification

引言这是Yoon Kim发表于2014年的EMNLP上的论文,也就是经常说到的TextCNN。CNN一开始提出来是作为图像或者语音这种特征连续任务的处理方式,这篇论文则是尝试将CNN用于文本这种离散型的任务中。模型前面说到CNN是处理连续型数据的,所以对于文本而言,就需要进行离散特征连续化,目前比较流行的应该是word2vec的方式,另外对于长度不同的文本就需要考虑padding了,网络结...

2018-11-15 17:19:50 312

原创 Cross-Entropy Error、Classification Error、Mean Squared Error

一、引言神经网络中,损失函数的选择希望能够有以下效果:1、不同的预测结果能够产生不同的损失,越好的结果损失要越小2、在损失较大的情况下,学习的速率要相对较快二、对比1、区分性假设有以下两组数据,computed代表计算出来的概率,targets代表实际的标签,correct代表分类结果是否正确数据组1:数据组2:Classification Error可以看到数据组1的分类...

2018-11-13 19:19:18 989

原创 Linux下编译安装gcc

引言1、gcc下载地址:ftp://ftp.mirrorservice.org/sites/sourceware.org/pub/gcc/releases2、GMP、MPFR、MPC下载地址:ftp://gcc.gnu.org/pub/gcc/infrastructure/步骤1、安装gcc需要依赖GMP、MPFR、MPC, 而MPFR依赖GMP,而MPC依赖GMP和MPFR,所以要先安装...

2018-11-08 17:19:47 237

原创 Monte Carlo Integration

引言Monte Carlo Integration,即蒙特卡罗积分,这是一种很常用的数学方法,原理上也可以很直观的列出来内容(一)投点法求定积分如下图,求函数f(x)从a到b的定积分。用面积为A的矩型罩在函数的积分区间上,随机地向这个矩形框里面投点,其中落在函数f(x)下方的点为绿色,其它点为红色。统计绿色点的数量占所有点(红色+绿色)数量的比例为r,据此估算出函数f(x)从a到b的定积...

2018-11-06 16:18:39 1784

原创 Linear classifiers do not share parameters among features and classes

一、概述标题来自Bag of Tricks for Efficient Text Classification,就是fasttext这篇文章二、简析1、解析下述截图来自:https://datascience.stackexchange.com/questions/30605/what-is-meant-by-sharing-of-parameters-between-features-a...

2018-11-01 10:23:25 131

原创 ORACLE锁表暴力解决方法

一、概述关于oracle锁详见:https://www.cnblogs.com/zhoading/p/8547320.html下述方法为处理ORA-00054:资源正忙,要求指定NOWAIT,这种问题。二、方法1、找出被锁对象select l.session_id,o.owner,o.object_name from v$locked_object l,dba_objects o whe...

2018-10-19 10:45:46 235

原创 linux下的缓存机制

一、缓存在linux系统下,free命令可以看到系统内存使用情况:上图各个参数解释如下:1、Memtotal:总内存used:已使用的内存free:空闲的内存shared:当前已废弃内存buffers Buffer:I/O缓存,用于内存和硬盘的缓冲cached Page:高速缓存,用于CPU和内存之间的缓冲关系:total = used + free2、Swap(-buf...

2018-10-11 16:56:27 312

原创 GRU与LSTM

一、前言GRU是LSTM的一种变体,综合来看:1、两者的性能在很多任务上不分伯仲。2、GRU 参数相对少更容易收敛,但是在数据集较大的情况下,LSTM性能更好。3、GRU只有两个门(update和reset),LSTM有三个门(forget,input,output)LSTM还有许多变体,但不管是何种变体,都是对输入和隐层状态做一个线性映射后加非线性激活函数,重点在于额外的门控机制是如何...

2018-09-23 14:34:17 8221 1

原创 新词发现:中文新词识别技术简介

一、前言新词识别,也可称为未登录词识别,严格来说,新词是指随时代发展而新出现或旧词新用的词,如:给力、山寨等;而未登录词是在词典中未存在的词,但实际使用中,两者并没有严格的区分,下文均以新词指代。 在之前的博文中提到,中文分词中存在两个问题,未登录词识别和歧义切分,具体在《统计自然语言处理》中提到,中文分词有98%的错误来自未登录词,相比之下未登录词识别比歧义切分更需要关注。二、概述...

2018-08-15 17:51:44 7942 1

原创 聚类:对聚类性能的评价

一、前言对于有监督的学习方法,我们可以找到许多评价指标,但是要评价无监督算法的质量,相对来说比较少有提及,正好最近在做一个相关的工作,稍微整理一下。二、方法下述提及方法均以k-means算法为基础, 不同聚类方法有不同的评价指标,这里说说k-means常用的两种方法1、肘部法则–Elbow Method我们知道k-means是以最小化样本与质点平方误差作为目标函数,将每个簇的质...

2018-07-10 21:06:00 5368

原创 词向量:如何评价词向量的好坏

一、前言词向量、词嵌入或者称为词的分布式表示,区别于以往的独热表示,已经成为自然语言任务中的一个重要工具,对于词向量并没有直接的方法可以评价其质量,下面介绍几种间接的方法。二、评价方法对于词向量的评价更多还是应该考虑对实际任务的收益,脱离的实际任务很难确定A模型就一定比B好,毕竟词向量方法更多是一种工具。1、语义相关性任务这个任务用来评价词向量模型在两个词之间的语义相关性,如:...

2018-07-10 11:51:32 4306

原创 Kaggle:Quora Question Pairs

一、概要Quora Question Pairs是kaggle上一个关于文本匹配的问题,主要目的是判断两个问题是不是同一个意思。二、数据简介数据结构相对比较简单,如下:"id","qid1","qid2","question1","question2","is_duplicate&quot

2018-06-11 19:00:31 4530 2

原创 Deep Sentence Embedding Using Long Short-Term Memory Networks

一、概述这种方式来自于论文Deep Sentence Embedding Using Long Short-Term Memory Networks,简单的来说应该是一种生成句向量的方法。二、思路论文中作者对比了很多相关工作,总而言之就LSTM-RNN这种方法相对而言有很大优势,这里就不列出来了。1、基本方法基本想法是将文本序列转化为向量,然后利用LSTM-RNN的结构进行...

2018-06-11 14:11:10 1169

原创 Text Matching as Image Recognition

一、概述MatchPyramid来自Liang Pang等在2016发表的一篇文章Text Matching as Image Recognition,大意为利用图像识别的方式进行文本匹配。二、思路对于文本匹配,基本思路如下述公式: 其中T为文本,函数θθθ代表将文本转换为对应的表示,函数FFF则代表两个文本表示之间的交互关系。 由侧重点不同可分为表示方法与交互方法,即注重θθ...

2018-06-11 11:48:51 3781

原创 Kaggle:Getting Started of Titanic

一、概要泰坦尼克号幸存预测是Kaggle上参与人数最多的的比赛之一,要求参赛人员预测乘客是否能够幸存,是一个典型的二分类问题。二、数据简介官网提供训练数据集train.csv和测试数据集test.csv和一个提交样例数据集,数据中的各个字段如下:PassengerId: 乘客的IDSurvived:1代表幸存,2代表遇难Pclass:票类别-社会地位, 1代表Upper,2代表...

2018-05-19 17:03:16 684

原创 知识图谱:行业图谱实战

一、前言关于知识图谱的概念,这里不加赘述,可以参考:知识图谱简介 下文会基于上市公司的基本数据,如:行业、地区、高管等,进行一个简单的实战。二、构建步骤1、数据抽取上市公司的信息可以从很多地方获取到,包括证监会或各类财经网站,或者工商局官网等等,基于获取难度与项目要求,使用以下网站: 新浪财经 巨潮资讯网(1)上市公司基本数据这里从新浪财经获取,基本没有难度,笔者已经...

2018-05-11 15:55:34 13625 2

原创 知识图谱:Konwledge Graph简介

一、概念Konwledge Graph来源于2012年谷歌提出的,用于增强其搜索引擎功能的知识库。 本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。具体体现在谷歌搜索中输入:杭州景点,能够得到结构化的知识,而不是简单的网页链接: 知识图谱是一种结构化的语义知识库,其基本组成单位...

2018-05-10 20:12:40 2859

原创 Replace or Retrieve Keywords In Documents At Scale

一、概念Flashtext主要用于关键字搜索与替换,来自于论文:Replace or Retrieve Keywords In Documents At Scale 论文中提到,Flashtext基于 Trie 字典数据结构和 Aho Corasick,但从搜索方式上,只匹配完整的词而不会匹配子字符串,如: 模式串‘apple’不会匹配到字符串’I like Pineapple’中的‘ap...

2018-05-04 10:56:31 1926 3

原创 How to Strike a Match

一、概念来自于Simon White发表的一篇文章:How to Strike a Match 这个算法主要为了满足以下三个需求:(1)字符串之间只是在某几个字符处出现不同,那么相似度应该比较高。(2)字符串的区别只是相同的词组以不同的顺序排列,那么相似度应该比较高。(3)语言无关性,算法应该满足多种语言的的相似度计算。论文中对比了几种相似度算法, Soundex Algor...

2018-05-02 15:55:08 927

空空如也

lpty的留言板

发表于 2020-01-02 最后回复 2020-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除