我爱自然语言处理

↧

Image may be NSFW.
Clik here to view.

PRML读书会第七章 Sparse Kernel Machines

January 30, 2015, 5:05 am

PRML读书会第七章 Sparse Kernel Machines 主讲人网神（新浪微博: @豆角茄子麻酱凉面）网神(66707180) 18:59:22 大家好，今天一起交流下PRML第7章。第六章核函数里提到，有一类机器学习算法，不是对参数做点估计或求其分布，而是保留训练样本，在预测阶段，计算待预测样本跟训练样本的相似性来做预测，例如KNN方法。...

View Article

Image may be NSFW.
Clik here to view.

PRML读书会第八章 Graphical Models

January 30, 2015, 8:03 pm

PRML读书会第八章 Graphical Models 主讲人网神（新浪微博: @豆角茄子麻酱凉面）网神(66707180) 18:52:10 今天的内容主要是： 1.贝叶斯网络和马尔科夫随机场的概念，联合概率分解，条件独立表示；2.图的概率推断inference。图模型是用图的方式表示概率推理...

View Article

Image may be NSFW.
Clik here to view.

PRML读书会第九章 Mixture Models and EM

January 30, 2015, 8:20 pm

PRML读书会第九章 Mixture Models and EM 主讲人网络上的尼采（新浪微博: @Nietzsche_复杂网络机器学习）网络上的尼采(813394698) 9:10:56 今天的主要内容有k-means、混合高斯模型、 EM算法。对于k-means大家都不会陌生，非常经典的一个聚类算法，已经50多年了，关于clustering推荐一篇不错的survey: Data...

View Article

Image may be NSFW.
Clik here to view.

PRML读书会第十章 Approximate Inference

January 30, 2015, 8:29 pm

PRML读书会第十章 Approximate Inference 主讲人戴玮（新浪微博: @戴玮_CASIA） Wilbur_中博(1954123) 20:02:04 我们在前面看到，概率推断的核心任务就是计算某分布下的某个函数的期望、或者计算边缘概率分布、条件概率分布等等。比如前面在第九章尼采兄讲EM时，我们就计算了对数似然函数在隐变量后验分布下的期望。这些任务往往需要积分或求和操作。...

View Article

Image may be NSFW.
Clik here to view.

PRML读书会第十一章 Sampling Methods

January 30, 2015, 8:40 pm

PRML读书会第十一章 Sampling Methods 主讲人网络上的尼采（新浪微博: @Nietzsche_复杂网络机器学习）网络上的尼采(813394698) 9:05:00 今天的主要内容：Markov Chain Monte Carlo，Metropolis-Hastings，Gibbs Sampling，Slice Sampling，Hybrid Monte Carlo。...

View Article

Image may be NSFW.
Clik here to view.

PRML读书会第十二章 Continuous Latent Variables

January 30, 2015, 8:49 pm

PRML读书会第十二章 Continuous Latent Variables 主讲人戴玮（新浪微博: @戴玮_CASIA） Wilbur_中博(1954123) 20:00:49...

View Article

Image may be NSFW.
Clik here to view.

PRML读书会第十三章 Sequential Data

January 30, 2015, 9:29 pm

PRML读书会第十三章 Sequential Data 主讲人张巍（新浪微博: @张巍_ISCAS）软件所-张巍<zh3f@qq.com> 19:01:27 我们开始吧，十三章是关于序列数据，现实中很多数据是有前后关系的，例如语音或者DNA序列，例子就不多举了，对于这类数据我们很自然会想到用马尔科夫链来建模：...

View Article

Image may be NSFW.
Clik here to view.

PRML读书会第十四章 Combining Models

January 30, 2015, 9:38 pm

PRML读书会第十四章 Combining Models 主讲人网神（新浪微博: @豆角茄子麻酱凉面）网神(66707180) 18:57:18 大家好，今天我们讲一下第14章combining models，这一章是联合模型，通过将多个模型以某种形式结合起来，可以获得比单个模型更好的预测效果。包括这几部分： committees, 训练多个不同的模型，取其平均值作为最终预测值。...

View Article

HMM相关文章索引

March 7, 2015, 2:05 am

HMM系列文章是52nlp上访问量较高的一批文章，这里做个索引，方便大家参考。 HMM学习 HMM学习最佳范例一：介绍 HMM学习最佳范例二：生成模式 HMM学习最佳范例三：隐藏模式 HMM学习最佳范例四：隐马尔科夫模型 HMM学习最佳范例五：前向算法 HMM学习最佳范例五：前向算法1 HMM学习最佳范例五：前向算法2 HMM学习最佳范例五：前向算法3 HMM学习最佳范例五：前向算法4...

View Article

中英文维基百科语料上的Word2Vec实验

March 12, 2015, 6:13 am

最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和...

View Article

用MeCab打造一套实用的中文分词系统(二)

April 1, 2015, 8:05 am

虽然是愚人节，但是这个不是愚人节玩笑，最近花了一些时间在MeCab身上，越发喜欢这个来自岛国的开源分词系统，今天花了一些时间训练了一个更适用的模型和词典，打包提供给大家使用，因为数据和词典涉及到一些版权问题，所以打包文件里只是mecab用于发布的二进制词典和模型文件，目前在mac os和linux ubuntu系统下测试无误，其他系统请自行测试使用：链接:...

View Article

用MeCab打造一套实用的中文分词系统(三)：MeCab-Chinese

April 28, 2015, 6:59 am

我在Github上发布了一个MeCab中文分词项目: MeCab-Chinese , 目的是提供一个用于中文分词和词性标注的MeCab词典和模型数据，类似MeCab日文IPA词典（mecab-ipadic），并且提供一些我自己用到的特征模板和脚本，方便大家从源头开始训练一个MeCab中文分词系统。...

View Article

Image may be NSFW.
Clik here to view.

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊 Richard Socher，他本人是德国人，大学期间涉足自然语言处理，在德国读研时又专攻计算机视觉，之后在斯坦福大学攻读博士学位，拜师NLP领域的巨牛 Chris Manning 和 Deep Learning...

View Article

Image may be NSFW.
Clik here to view.

斯坦福大学深度学习与自然语言处理第二讲：词向量

June 4, 2015, 6:59 am

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊 Richard Socher，以下为相关的课程笔记。第二讲：简单的词向量表示：word2vec, Glove(Simple Word Vector representations: word2vec,...

View Article

Image may be NSFW.
Clik here to view.

斯坦福大学深度学习与自然语言处理第三讲：高级的词向量表示

July 15, 2015, 2:31 am

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊 Richard Socher，以下为相关的课程笔记。第三讲：高级的词向量表示（Advanced word vector representations: language models, softmax,...

View Article

用MeCab打造一套实用的中文分词系统(四)：MeCab增量更新

August 25, 2015, 8:10 am

最近在处理NLPJob的一些数据，发现之前训练的Mecab中文分词工具包还有一些问题，所以想到了为NLPJob定制一个MeCab中文分词器，最简单的方法就是整理一批相关的词条，可以通过词条追加的方法加到原有的Mecab中文分词词典中去，这个可以参考《日文分词器Mecab文档》中介绍的“词条追加”方法，既可以放到系统词典中，也可以放到用户词典中，很方便。不过这个还不是最佳方案，之前有用户在《用MeCa...

View Article

Image may be NSFW.
Clik here to view.

斯坦福大学深度学习与自然语言处理第四讲：词窗口分类和神经网络

September 13, 2015, 9:43 pm

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊 Richard Socher，以下为相关的课程笔记。第四讲：词窗口分类和神经网络（Word Window Classification and Neural Networks）推荐阅读材料： [UFLDL...

View Article

出门问问宣布完成由Google投资的C轮融资，累计融资7500万美金

September 2, 2015, 3:58 am

注：出门问问是我们的老朋友，创始人李志飞也是NLP和机器翻译领域的大牛，今天出门问问拿到了Google的C轮融资，志飞兄第一时间和我分享了这条新闻，太牛了。人工智能创业公司出门问问（Mobvoi），于近日完成了由Google投资的C轮融资，累计融资7500万美金。现有投资方包括红杉资本、真格基金，SIG海纳亚洲、圆美光电、及歌尔声学。此轮投资Google并不控股，出门问问团队依旧有绝对控制权。...

View Article

在微信公众号里使用Latex数学公式

November 17, 2015, 7:25 am

因为有同学在微信后台咨询这个问题，所以这里简单记录一下，其实自己之前也摸索了一些方法，不是太完美，目前所使用的这个方法算是折中后比较好的。...

View Article

Image may be NSFW.
Clik here to view.

达观数据对于大规模消息数据处理的系统架构

December 2, 2015, 2:54 am

达观数据是为企业提供大数据处理、个性化推荐系统服务的知名公司，在应对海量数据处理时，积累了大量实战经验。其中达观数据在面对大量的数据交互和消息处理时，使用了称为DPIO的设计思路进行快速、稳定、可靠的消息数据传递机制，本文分享了达观数据在应对大规模消息数据处理时所开发的通讯中间件DPIO的设计思路和处理经验（达观数据架构师桂洪冠）一、数据通讯进程模型...

View Article