百度 LAC 2.0 极速体验,这是一个值得拥有的中文词法分析工具
关于中文词法分析(中文分词、词性标注、命名实体识别)相关的工具,我们在之前已经多次提到过百度LAC(https://github.com/baidu/lac),除了在易用性上稍弱外,其他方面,特别是NER在横向对比中还是很亮眼的。最近百度NLP发布了LAC2.0:开源!我知道你不知道,百度开源词法LAC...
View Article斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用
众所周知,斯坦福大学自然语言处理组出品了一系列NLP工具包,但是大多数都是用Java写得,对于Python用户不是很友好。几年前我曾基于斯坦福Java工具包和NLTK写过一个简单的中文分词接口:Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器,不过用起来也不是很方便。深度学习自然语言处理时代,斯坦福大学自然语言处理组开发了一个纯Python版本的深度学习NLP工具包:Stanza -...
View Article❤️Emotional First Aid Dataset, 心理咨询问答语料库
Emotional First Aid Dataset 心理咨询问答语料库,仅限研究用途。 https://github.com/chatopera/efaqa-corpus-zh 为什么发布这个语料库 心理咨询中应用人工智能,是我们认为非常有意义的一个探索。我们愿意和更多人合作,把目前领先的人工智能技术,在心理咨询不同场景下落地。扣门的,就给他开门,愿每个人都有自己的心理咨询师。 -- 派特心理...
View ArticleSpringer面向公众开放正版电子书籍,附65本数学、编程、数据挖掘、数据科学、数据分析、机器学习、深度学习、人工智能相关书籍链接及打包下载
施普林格(Springer)是世界著名的科技期刊、图书出版公司,这次疫情期间面向公众免费开放了一批社科人文,自然科学等领域的正版电子书籍(据说是400多本),towardsdatascience 上有学者将其中65本机器学习和数据科学以及统计相关的免费教材下载链接整理了出来,我试了一下,无需注册,可以直接下载相关的PDF书籍,相当方便:Springer has released 65 Machine...
View Article学自然语言处理,其实更应该学好英语
关于如何学习自然语言处理,如何入门NLP,无论在博客、微博还是AINLP公众号以及技术交流群里,遇到过一些同学提这个问题,之前开玩笑的建议过:学好英语、打好数学和计算机科学的基础,然后再了解一点语言学,这个问题就简单了。今天,刚好看到一条微博,关于“为什么要学习英语”:...
View Article一键收藏自然语言处理学习资源大礼包
虽然知道大多数同学都有资料收藏癖,还是给大家准备一份自然语言处理学习大礼包,其实是之前陆陆续续分享的NLP学习资源,包括自然语言处理、深度学习、机器学习、数学相关的经典课程、书籍和学习笔记,这些资料基本上都是公开渠道可以获得的,整理到一起,方便NLP爱好者收藏把玩。当然,学习的前提依然是”学自然语言处理,其实更应该学好英语“。...
View Article中文命名实体识别工具(NER)哪家强?
自去年以来,在AINLP公众号上陆续给大家提供了自然语言处理相关的基础工具的在线测试接口,使用很简单,关注AINLP公众号,后台对话关键词触发测试,例如输入 “中文分词 我爱自然语言处理”,“词性标注 我爱NLP”,“情感分析 自然语言处理爱我","Stanza 52nlp" 等,具体可参考下述文章: 五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC,...
View Article藏头诗生成器有了,藏尾诗生成器还会远吗?
自从AINLP公众号后台对话上线自动写诗功能,特别是藏头诗生成器的功能后,发现有不少同学在使用,特别是过程中发现有的同学不仅需要藏头诗,还需要藏尾诗,这也让我第一次了解了藏尾诗。不过如果让用户随意输入尾词,诗句尾部的押韵基本上破坏了,但是作为大众娱乐需求,这功能还是可以有的。所能想到的第一个方法是:基于目前的模型强制在结尾处替换关键字,然后逐句生成,但是这种方法合成的藏尾诗必定会很生硬;第二个方法直...
View Article相似词检索,近义词查询,同义词大全,这里不仅仅可查中文
大概一年前,我在AINLP的公众号对话接口里基于腾讯800万大的词向量配置了一个相似词查询的接口: 腾讯词向量和相似词、相似度、词语游戏系列 相似词查询:玩转腾讯 AI Lab 中文词向量 玩转腾讯词向量:词语相似度计算和在线查询 腾讯词向量实战:通过Annoy进行索引和快速查询 玩转腾讯词向量:Game of Words(词语的加减游戏) 词向量游戏:梅西-阿根廷+葡萄牙=?...
View Article百度 LAC 2.0 极速体验,这是一个值得拥有的中文词法分析工具
关于中文词法分析(中文分词、词性标注、命名实体识别)相关的工具,我们在之前已经多次提到过百度LAC(https://github.com/baidu/lac),除了在易用性上稍弱外,其他方面,特别是NER在横向对比中还是很亮眼的。最近百度NLP发布了LAC2.0:开源!我知道你不知道,百度开源词法LAC...
View ArticleChatopera 发布机器人平台使用指南,让聊天机器人上线吧!
对话机器人在企业中的价值 根据埃森哲研究,全球多家企业的首席信息官和首席技术官认为,聊天机器人(Chatbot)在的企业架构中将发挥举足轻重的作用,并对企业运营产生巨大的影响,尤其是在帮助改善提升客户和员工体验这一方面。聊天机器人不再是简单的用户应答工具,而是提供信息、完成任务和处理交易的助手,在企业运营中更是大有用武之地。 图1:企业高管期望未来的聊天机器人能够为企业带来哪些积极影响...
View Article《自然语言处理综论(Speech and Language Processing)》第三版终于在2020年年底更新了
自然语言处理领域的圣经《自然语言处理综论(Speech and Language Processing)》第三版(简称SLP3)备受瞩目,该书的正式出版日期一再推迟,不过该书作者NLP领域的大神 Daniel Jurafsky 教授和 James H. Martin...
View Article知识蒸馏:让LSTM重返巅峰!
AINLP原创 · 作者 | 叶文杰 工作单位 | vivo 深圳AI研究院 NLP技术组 研究方向 | 自然语言处理 个人介绍 | 就读于东南大学二年级,在2020年8月至2021年1月在vivo 深圳AI研究院 NLP技术组实习,实习期间主要从事模型压缩与蒸馏的工作 开篇 去年年底,各大榜单上风起云涌,各路英雄在榜单上为了分数能多个0.01而不停的躁动,迫不及待地想要向外界秀秀自己的肌肉。...
View Article带噪学习研究及其在内容审核业务下的工业级应用
AINLP原创 · 作者 | 叶俊杰、赵京伟 工作单位 | vivo 深圳AI研究院 NLP技术组 研究方向 | 多模态,表示学习 个人介绍 | 叶俊杰,技术专家,毕业于香港中文大学。赵京伟,vivo AI Lab基础研究负责人,毕业于清华大学电子工程系。 合作单位:香港中文大学、中国科学院深圳先进技术研究院...
View Article小样本做文本分类:超干货解读,看完别说你还不懂胶囊网络
The pooling operation used in convolutional neural networks is a big mistake and the fact that it works so well is a disaster. ——Hinton 先引用深度学习三巨头之一Geoffrey Hinton(杰弗里·辛顿)对CNN的见解作为开端(老师说这样写作能得高分)...
View Article千字浓缩精华:把RNN、RNN变体、Seq2Seq、Attention机制聊透一点
上一章我们详细介绍了小样本做文本分类中的胶囊网络,那么这一章我们就来看看RNN(循环神经网络)。大神们准备好了吗,我们要发车了~ 首先就是我们为什么需要RNN? 举个简单的例子,最近娱乐圈顶流明星吴亦凡又出新瓜,大家都吃了咩?(反正小编吃的很饱哈)那么就以我 吃 瓜为例,三个单词标注词性为 我/nn 吃/v 瓜/nn。 那么这个任务的输入就是: 我 吃 瓜 (已经分词好的句子) 这个任务的输出是:...
View Article图模型句法分析第一讲:随机游走之拒绝采样
蒙特·卡罗方法(Monte Carlo method)也称统计模拟方法,通过重复随机采样模拟对象的概率与统计的问题,在物理、化学、经济学和信息技术领域均具有广泛应用。拒绝采样(reject sampling)就是针对复杂问题的一种随机采样方法。 首先举一个简单的例子介绍Monte Carlo方法的思想。 假设要估计圆周率 $\pi$...
View Article