中文分词入门之字标注法全文文档
将“中文分词入门之字标注法”这个系列整理成了一个PDF文档放到微盘中了,感兴趣的同学可以下载: 微盘:中文分词入门之字标注法.pdf; 百度网盘:中文分词入门之字标注法.pdf 如果愿意看网页,也可以从这个标签进入:字标注中文分词。...
View ArticleDigitalOcean使用小记
晚上看到微博上的@developerWorks同学推荐DigitalOcean, 赫然发现自己使用DigitalOcean大概也一年了(2013年2月28日开始),自从前段时间把52nlp搬牵过来之后,我在国外的vps就只有DigitalOcean了。所以在微博上简短回复了一下: 上半年就开始用DO了,52nlp前段时间也搬到DO了,用的是10美元每月的Plan, 彻底告别了linode。...
View Article顺丰海淘SFBuy首次体验-美国亚马逊海淘Kindle DX转运全攻略
虽然家里早已有一个6寸多的Kindle,但是发现阅读一些英文pdf书籍和paper还是很不方便,所以一直想搞一个大一点的Kindle。虽然知道海淘已经有一段时间,但是一直没有尝试,即使前段时间决定要买一个9.7寸的Kindle DX (Kindle DX, Free 3G, 9.7″ E Ink Display, 3G Works Globally)...
View ArticleNLPJob 主站上线
NLPJob之前主要以博客的模式在运作,虽然这个圈子的招聘很热闹,每次的招聘信息大家也响应的很热烈,但是毕竟博客这种人工模式比较低效,加之自己之前忙于其他的事情,这个博客慢慢的也淡了。前段时间,打开nlpjob的联系邮箱(nlpjob01 at gmail.com)...
View Article[火光摇曳]神奇的伽玛函数(上)
原文链接: http://www.flickering.cn/?p=163 一、开篇 数学爱好者们汇集在网络论坛上的一大乐事就是对各类和数学相关的事物评头论足、论资排辈。如果要评选历史上最伟大的数学家,就会有一大堆的粉丝围绕高斯、黎曼、牛顿、欧拉、阿基米德等一流人物展开口水战;如果要讨论最奇妙的数学常数,$e, \pi, \phi=\frac{\sqrt{5}-1}{2} $...
View Article[火光摇曳]神奇的伽玛函数(下)
原文链接: http://www.flickering.cn/?p=203 五、$ \Gamma(n) = (n-1)!$ 还是 $ \Gamma(n) = n! $ ? 伽玛函数找到了,我们来看看第二个问题,为何伽玛函数被定义为满足 $\Gamma(n)=(n-1)!$? 这看起来挺别扭的,如果我们稍微修正一下,把伽玛函数定义中的 $t^{x-1}$ 替换为 $t^x$ $$ \Gamma(x)...
View Article翻译技术沙龙第十六次活动——“互联网技术驱动下的语言服务众包模式” 通知
互联网技术的飞速发展为语言服务行业带来了巨大的挑战和市场需求。信息爆炸在带来海量待译内容的同时,也造成翻译内容碎片化现象,并提出快速交付的要求。与此同时,越来越多的译者或准译者进入语言服务市场,寻求工作和学习的机会。在机器翻译仍旧无法突破质量桎梏的情况下,有着效率高、参与面广、质量相对较高、成本较低等特点的众包翻译模式恰恰能够满足市场的需求。...
View ArticlePython 网页爬虫 &文本处理 &科学计算 &机器学习 &数据挖掘兵器谱
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Pyt...
View Article翻译技术沙龙第17次活动——“翻译质量评估及控制技术与工具”活动通知
翻译作为一种沟通手段,在全球一体化的今天扮演着越来越重要的角色。如何进行翻译质量评估也因此成为值得深思的问题。从House的《翻译质量评估———修订的模式》,到Williams...
View ArticlePython自然语言处理实践: 在NLTK中使用斯坦福中文分词器
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger),命名实体识别工具(Named Entity...
View ArticleCIKM Competition数据挖掘竞赛夺冠算法陈运文
背景 CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称。CIKM全称是International Conference on Information and Knowledge Management,属于信息检索和数据挖掘领域的国际著名学术会议,由ACM SIGIR分会(ACM Special Interest Group on...
View Article树莓派(Raspberry Pi)使用小记
最近开始玩树莓派,在淘宝上采购了两套树莓派(Raspberry Pi, Model B+)及相关配件,虽然网上有很多资料可以参考,不过经过自己实践和踩了一些坑之后,觉得有必要记录一下,也提供给对树莓派感兴趣的同学做个参考,可以少走一些弯路,尽快把树莓派点亮。...
View Article用MeCab打造一套实用的中文分词系统
MeCab是一套日文分词(形态分析)和词性标注系统(Yet Another Part-of-Speech and Morphological Analyzer), rick曾经在这里分享过MeCab的官方文档中文翻译: 日文分词器 Mecab...
View ArticlePRML读书会前言
PRML读书会前言 @Nietzsche_复杂网络机器学习 读书会成立属于偶然,一次群里无聊到极点,有人说Pattern Recognition And Machine...
View ArticlePRML读书会第一章 Introduction
PRML读书会第一章 Introduction 主讲人 常象宇 大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章。估计都是大神觉得第一章比较简单,所以就由我来吧。我的背景是统计与数学,稍懂些计算机,大家以后有问题可以讨论。...
View ArticlePRML读书会第二章 Probability Distributions
PRML读书会第二章 Probability Distributions 主讲人 网络上的尼采 (新浪微博:@Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:11:56 开始吧,先不要发言了,先讲PRML第二章Probability Distributions。今天的内容比较多,还是边思考边打字,会比较慢,大家不要着急,上午讲不完下午会接着讲。...
View ArticlePRML读书会第三章 Linear Models for Regression
PRML读书会第三章 Linear Models for Regression 主讲人 planktonli planktonli(1027753147) 18:58:12 大家好,我负责给大家讲讲 PRML的第3讲 linear regression的内容,请大家多多指教,群主让我们每个主讲人介绍下自己,赫赫,我也说两句,我是 applied mathematics + computer...
View ArticlePRML读书会第四章 Linear Models for Classification
PRML读书会第四章 Linear Models for Classification 主讲人 planktonli planktonli(1027753147) 19:52:28 现在我们就开始讲第四章,第四章的内容是关于 线性分类模型,主要内容有四点: 1) Fisher准则的分类,以及它和最小二乘分类的关系 (Fisher分类是最小二乘分类的特例) 2) 概率生成模型的分类模型 3)...
View ArticlePRML读书会第五章 Neural Networks
PRML读书会第五章 Neural Networks 主讲人 网神 (新浪微博:@豆角茄子麻酱凉面) 网神(66707180) 18:55:06 那我们开始了啊,前面第3,4章讲了回归和分类问题,他们应用的主要限制是维度灾难问题。今天的第5章神经网络的内容: 1. 神经网络的定义 2. 训练方法:error函数,梯度下降,后向传导 3. 正则化:几种主要方法,重点讲卷积网络...
View ArticlePRML读书会第六章 Kernel Methods
PRML读书会第六章 Kernel Methods 主讲人 网络上的尼采 (新浪微博:@Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:16:05 今天的主要内容:Kernel的基本知识,高斯过程。边思考边打字,有点慢,各位稍安勿躁。...
View Article