Deep Learning 在中文分词和词性标注任务中的应用

时间:2022-09-06 17:40:55
      开源软件包 SENNAword2vec 中都用到了词向量(distributed word representation),当时我就在想,对于我们的中文,是不是也类似地有字向量(distributed character representation)的概念呢?

      最近恰好读到复旦大学郑骁庆博士等人的文章 [1]《Deep Learning for Chinese Word Segmentation and POS tagging》。这篇文章利用文 [3] 作者提出的神经网络框架,针对中文分词和词性标注任务,给出了一种基于字向量的 perceptron-style 算法,该算法的亮点是受文 [4] 启发在训练部分用了一种新的思路,而不是采用传统的 maximum log-likelihood 方法,极大地降低了算法复杂度,且非常容易实现。数值实验表明,该算法的 performance 也还不错。

      本博客是读完文 [1] 后的一则笔记,内容以翻译为主,同时也穿插了一些注记,供感兴趣的读者参考。

Deep Learning 在中文分词和词性标注任务中的应用

Deep Learning 在中文分词和词性标注任务中的应用

Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用

Deep Learning 在中文分词和词性标注任务中的应用Deep Learning 在中文分词和词性标注任务中的应用

若需要本文完整的 PDF 文档,请点击《Deep Learning 在中文分词和词性标注任务中的应用》进行下载!

作者: peghoty

出处: http://blog.csdn.net/itplus/article/details/13616045

欢迎转载/分享, 但请务必声明文章出处.

Deep Learning 在中文分词和词性标注任务中的应用的更多相关文章

  1. 基于Deep Learning的中文分词尝试

    http://h2ex.com/1282 现有分词介绍 自然语言处理(NLP,Natural Language Processing)是一个信息时代最重要的技术之一,简单来讲,就是让计算机能够理解人类 ...

  2. 利用 word2vec 训练的字向量进行中文分词

    最近针对之前发表的一篇博文<Deep Learning 在中文分词和词性标注任务中的应用>中的算法做了一个实现,感觉效果还不错.本文主要是将我在程序实现过程中的一些数学细节整理出来,借此优 ...

  3. NLP&plus;词法系列(二)︱中文分词技术简述、深度学习分词实践(CIPS2016、超多案例)

    摘录自:CIPS2016 中文信息处理报告<第一章 词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...

  4. NLP自然语言处理 jieba中文分词&comma;关键词提取&comma;词性标注&comma;并行分词&comma;起止位置&comma;文本挖掘&comma;NLP WordEmbedding的概念和实现

    1. NLP 走近自然语言处理 概念 Natural Language Processing/Understanding,自然语言处理/理解 日常对话.办公写作.上网浏览 希望机器能像人一样去理解,以 ...

  5. 新浪SAE中文分词接口

    最近发现新浪SAE平台上竟然也提供分词功能,分词效果也还不错,由新浪爱问提供的分词服务,研究了一番,做了一个简易版的在线调用接口(get方式,非post) 官网说明:http://apidoc.sin ...

  6. 【原创】中文分词系统 ICTCLAS2015 的JAVA封装和多线程执行(附代码)

    本文针对的问题是 ICTCLAS2015 的多线程分词,为了实现多线程做了简单的JAVA封装.如果有需要可以自行进一步封装其它接口. 首先ICTCLAS2015的传送门(http://ictclas. ...

  7. 中文分词工具thulac4j正式发布

    1. 介绍 thulac4j是THULAC的Java 8实现,相比于官方Java实现THULAC-Java,我们做了如下工作: 规范化分词词典,并去掉一些无用词: 重写DAT(双数组Trie树)的构造 ...

  8. 深度学习(Deep Learning)资料大全(不断更新)

    Deep Learning(深度学习)学习笔记(不断更新): Deep Learning(深度学习)学习笔记之系列(一) 深度学习(Deep Learning)资料(不断更新):新增数据集,微信公众号 ...

  9. 分词工具Hanlp基于感知机的中文分词框架

     结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词.词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构 ...

随机推荐

  1. sqlserver2012更改文件组

    1.查看文件组 sql语句 SELECT Data_located_on_filegroup = fg.groupname, Table_name = obj.name FROM sysfilegro ...

  2. 【Beta】第五次任务发布

    PM #100 日常管理&dev版宣传&设计报告管理后台. 后端 #101 完成收藏功能 完成管理员权限表的生成和接入(按位压缩权限表) 验收条件:收藏功能能够正常使用.能够区分常规用 ...

  3. Web前端优化最佳实践及工具集锦

    Web前端优化最佳实践及工具集锦 发表于2013-09-23 19:47| 21315次阅读| 来源Googe & Yahoo| 118 条评论| 作者王果 编译 Web优化Google雅虎P ...

  4. 如何用 CSS 做到完全垂直居中

    本文将教你一个很有用的技巧——如何使用 CSS 做到完全的垂直居中.我们都知道 margin:0 auto; 的样式能让元素水平居中,而 margin: auto; 却不能做到垂直居中……直到现在.但 ...

  5. PHP 操作mongodb api大部分方法

    <?php /* PHP mongodb * 全部curd操作 * @author:xiaojiang * @date: 2014-10-27 */ //查看 mongo类版本 1.30 以后版 ...

  6. WampServer下使用多端口访问

    因为学习中要用到跨域请求,所以不得不在wamp集成环境下添加多站点服务. 1.首先你要确保已经正确安装了wamp. 2.接着在wamp的安装目录下找到Apache2的httpd.conf文件,比如我的 ...

  7. Java &lbrack;Leetcode 229&rsqb;Bulls and Cows

    题目描述: You are playing the following Bulls and Cows game with your friend: You write down a number an ...

  8. java基础程序设计学习

    java使用System.out来表示标准输出设备,使用System.in来表示标准输入设备.java并不直接支持控制台输入,但是可以使用Scanner类创建它的对象,以读取来自System.in的输 ...

  9. 简单的拖动手势控制侧拉view显示

    通过 UIPanGestureRecognizer  手势来控制侧拉view的显示 在QHLViewController.m文件中,先添加一些宏定义和参数等等. #define QHLAnimatin ...

  10. Chapter 1 First Sight——26

    "Which ones are the Cullens?" I asked. "They don't look related…" 哪一个是卡伦,我问道,他们都 ...