Quantcast
Channel: 我爱自然语言处理
Browsing all 205 articles
Browse latest View live

Image may be NSFW.
Clik here to view.

2019斯坦福CS224n深度学习自然语言处理课程视频和相关资料分享

斯坦福大学2019年新一季的CS224n深度学习自然语言处理课程(CS224n: Natural Language Processing with Deep Learning-Stanford/Winter 2019)1月份已经开课,不过视频资源一直没有对外放出,直到前几天官方在油管上更新了前5节视频:CS224n: Natural Language Processing with Deep...

View Article


Image may be NSFW.
Clik here to view.

为了夸夸聊天机器人,爬了一份夸夸语料库

上周为了娱乐,写了一篇《一行Python代码实现夸夸聊天机器人》,虽然只有几十条人工整理的通用夸夸语料,但是貌似也能应付一些简单需求。不过这篇文章在微博、AINLP微信公众号、知乎专栏推送后,还是有很多同学强烈建议丰富语料库。这个建议其实是很不错的,所以周末认真调研了一番,决定从豆瓣上的夸夸小组入手,这里面有很多现成的语料,至于混进微信、QQ夸夸群,收集语料,我觉得不太现实。...

View Article


Image may be NSFW.
Clik here to view.

你是如何了解或者进入NLP这个领域的?

每个NLPer都有自己的故事,每个故事都很精彩!...

View Article

Image may be NSFW.
Clik here to view.

中文分词文章索引和分词数据资源分享

昨天在AINLP公众号上分享了乐雨泉同学的投稿文章:《分词那些事儿》,有同学留言表示"不过瘾",我想了想,其实我爱自然语言处理博客上已经积攒了不少中文分词的文章,除了基于深度学习的分词方法还没有探讨外,“古典”机器学习时代的中文分词方法都有涉及,从基于词典的中文分词(最大匹配法),到基于统计的分词方法(HMM、最大熵模型、条件随机场模型CRF),再到Mecab、NLTK中文分词,都有所涉及。回头看,...

View Article

Image may be NSFW.
Clik here to view.

在NLP领域中文对比英文的难点分析 (达观数据 陈运文)

作者:达观数据创始人  陈运文 人类经过漫长的历史发展,在世界各地形成了很多不同的语言分支,其中汉藏语系和印欧语系是使用人数最多的两支。英语是印欧语系的代表,而汉语则是汉藏语系的代表。中英文语言的差异十分鲜明,英语以表音(字音)构成,汉语以表义(字形)构成,印欧和汉藏两大语系有很大的区别。...

View Article


Image may be NSFW.
Clik here to view.

夸夸聊天机器人升级:从随机到准个性化

来,你们要的夸夸聊天机器人升级了,针对问题内容进行“准个性化”回答,目前可以凑合用,但是聊胜于无,欢迎来撩,使用方法,关注公众号AINLP,后台对话即可:...

View Article

Image may be NSFW.
Clik here to view.

FlyAI算法竞赛平台初体验

前几天在AINLP公众号上分享了国内一个新兴AI算法竞赛平台FlyAI:FlyAI算法竞赛:百万现金奖励实时瓜分,FlyAI算法竞赛平台比较有意思的一点是可以实时分享相关赛道的奖金池,另外完全使用FlyAI官方的GPU资源在线训练模型和提交结果,这一点,对于没有GPU条件的同学来说也是很有吸引力的。...

View Article

Image may be NSFW.
Clik here to view.

玩转腾讯词向量:词语相似度计算和在线查询

先讲一个故事,自从《相似词查询:玩转腾讯 AI Lab...

View Article


Image may be NSFW.
Clik here to view.

算法工程师需不需要架构思维-许式伟首次完整架构经验分享

做算法的同学需不需要架构思维?个人觉得非常需要,特别是工作了几年之后,无论是广告系统,推荐系统,还是问答(对话)系统,机器翻译系统,都需要系统架构思维,特别是近期,在斯坦福举行的新学术会议SysML发布了一份白皮书,确定了 机器学习+系统 这个新方向:Machine Learning System(机器学习系统),这大概就是大势所趋吧。...

View Article


腾讯词向量实战:通过Annoy进行索引和快速查询

上周《玩转腾讯词向量:词语相似度计算和在线查询》推出后,有同学提到了annoy,我其实并没有用annoy,不过对annoy很感兴趣,所以决定用annoy试一下腾讯 AI Lab 词向量。 学习一个东西最直接的方法就是从官方文档走起:https://github.com/spotify/annoy ,...

View Article

Image may be NSFW.
Clik here to view.

斯坦福大学深度学习自然语言处理课程CS224N 2019 全20个视频分享

近期一直关注着斯坦福大学深度学习自然语言处理课程CS224N在油管上的视频更新情况,直到昨天看到他们分享了第20个视频资源: Stanford CS224N: NLP with Deep Learning | Winter 2019 | Lecture 20 – Future of NLP + Deep Learning...

View Article

Image may be NSFW.
Clik here to view.

玩转腾讯词向量:Game of Words(词语的加减游戏)

上一篇文章《腾讯词向量实战:通过Annoy进行索引和快速查询》结束后,觉得可以通过Annoy做一点有趣的事,把“词类比(Word Analogy)”操作放到线上,作为AINLP公众号聊天机器人的新技能,毕竟这是word2vec,或者词向量中很有意思的一个特性,刚好,Annoy也提供了一个基于vector进行近似最近邻查询的接口: get_nns_by_vector(v, n,...

View Article

Image may be NSFW.
Clik here to view.

来,试试语音(识别)聊天(机器人)

周末娱乐一下,解锁AINLP公众号聊天机器人无名的语音(识别)聊天技能,不过只有语音识别,没有语音合成,这个目前基于微信公众号本身提供的语音识别接口,目前只能识别中文语音,感兴趣的同学可以先关注AINLP公众号,然后后台语音或者文字对话即可: 基于AINLP公众号的聊天机器人功能点,可以基于语音玩一些有趣的事情,例如中英翻译功能:...

View Article


Image may be NSFW.
Clik here to view.

AI技术内参:关于数据科学的9个分享

最近被安利了一个极客时间的专栏:《AI技术内参》,作者是洪亮劼老师,美国Etsy工程总监,前雅虎研究院高级研发经理。选了一些章节试读,觉得可以安利一下这个专栏,好东西要分享,希望你能耐心看完这篇文章。通过这个专栏大概可以一窥工业界的一些玩法,工业界和学术界的碰撞,另外从目录来看这个专栏覆盖的范围也很广,包括自然语言处理、计算机视觉、数据科学、推荐系统、广告系统、搜索核心技术的传统机器学习方法和新的深...

View Article

Image may be NSFW.
Clik here to view.

五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

最近玩公众号会话停不下来:玩转腾讯词向量:Game of Words(词语的加减游戏),准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公众号后台聊天机器人添加了一项新技能:中文分词线上PK,例如在AINLP公众号后台对话输入:中文分词 我爱自然语言处理,就可以得到五款分词工具的分词结果:...

View Article


Image may be NSFW.
Clik here to view.

中文分词工具在线PK新增:FoolNLTK、HITLTP、StanfordCoreNLP

继续中文分词在线PK之旅,上文《五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP》我们选择了5个中文分词开源工具,这次再追加3个,分别是FoolNLTK、哈工大LTP(pyltp, ltp的python封装)、斯坦福大学的CoreNLP(stanfordcorenlp is a Python wrapper for Stanford...

View Article

Python中文分词工具大合集:安装、使用和测试

这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考。 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AINLP公众号后台在线测试,严格的说,它们不完全是纯粹的中文分词工具,例如SnowNLP, Thulac,...

View Article


中文分词工具评估

最近我们分享了一些关于分词的事情,对于琳琅满目的分词工具,我们到底该选择哪个呢? 这里有一个Java开源项目cws_evaluation,对中文分词做了评比,但有几点不足:(1). 只有java版本,但是机器学习主要是基于python的 (2).效果指标为行完美率和字完美率,该指标不妥,特别是句子越长,越无意义,(3). 每种分词工具评测的算法太多了,这里仅评比了默认的分词算法。...

View Article

Image may be NSFW.
Clik here to view.

Philipp Koehn大神的神经网络机器翻译学习资料:NMT Book

上午有同学在AINLP交流群里询问机器翻译书籍,看到后第一想到的就是Philipp Koehn大神,我读书的时候他活跃在统计机器翻译的一线,特别是他领导开源的Moses机器翻译工具,成了统计机器翻译时代的标配;现在他活跃在神经网络机器翻译的一线,这种一线,不仅仅指paper,还有代码,关注他的github,你会发现他还在为开源的神经网络机器翻译工具贡献代码。...

View Article

Image may be NSFW.
Clik here to view.

八款中文词性标注工具使用及在线测试

结束了中文分词工具的安装、使用及在线测试,开启中文词性标注在线测试之旅,一般来说,中文分词工具大多数都附带词性标注功能的,这里测试了之前在AINLP公众号上线的8款中文分词模块或者工具,发现它们都是支持中文词性标注的,这里面唯一的区别,就是各自用的词性标注集可能有不同:...

View Article
Browsing all 205 articles
Browse latest View live