前段时间给公众号新增了一个成语接龙功能:AINLP公众号对话接口新增成语接龙,这个里面提到的项目用到了一份成语数据,包含了2万多条成语数据和释义。不过这个数据之外,推荐一个更棒的Github项目:
pwxcoo/chinese-xinhua:https://github.com/pwxcoo/chinese-xinhua
这个项目收录了收录了 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语,并且以json格式提供了相关数据,非常方便:
项目结构:
chinese-xinhua/ | +- data/ <-- 数据文件夹 | | | +- idiom.json <-- 成语 | | | +- word.json <-- 汉字 | | | +- xiehouyu.json <-- 歇后语 | | | +- ci.json <-- 词语
汉字例子:
{ "word": "吖", "oldword": "吖", "strokes": "6", "pinyin": "ā", "radicals": "口", "explanation": "喊叫天~地。\n 形容喊叫的声音高声叫~~。\n\n 吖ā[吖啶黄](-dìnghuáng)〈名〉一种注射剂。\n ────────────────—\n \n 吖yā 1.呼;喊。", "more": "吖 a 部首 口 部首笔画 03 总笔画 06 吖2\nyā\n喊,呼喊 [cry]\n不索你没来由这般叫天吖地。--高文秀《黑旋风》\n吖\nyā\n喊声\n则听得巡院家高声的叫吖吖。--张国宾《合汗衫》\n另见ā\n吖1\nā\n--外国语的音译,主要用于有机化学。如吖嗪\n吖啶\nādìng\n[acridine] 一种无色晶状微碱性三环化合物c13h9n,存在于煤焦油的粗蒽馏分中,是制造染料和药物(如吖啶黄素和奎吖因)的重要母体化合物\n吖1\nyā ㄧㄚˉ\n(1)\n喊叫天~地。\n(2)\n形容喊叫的声音高声叫~~。\n郑码jui,u5416,gbkdfb9\n笔画数6,部首口,笔顺编号251432\n吖2\nā ㄚˉ\n叹词,相当于呵”。\n郑码jui,u5416,gbkdfb9\n笔画数6,部首口,笔顺编号251432" }
词典例子:
{ "ci": "总计", "explanation": "1.总共计算。 \n2.犹统计。"}
成语例子:
{ "derivation": "清·嬴宗季女《六月霜·恤纬》劝夫人省可闲愁绪,足食丰衣无所虑,何况俺爷贵胄都时誉。”", "example": "无", "explanation": "丰衣足食。形容生活富裕。", "pinyin": "zú shí fēng yī", "word": "足食丰衣", "abbreviation": "zsfy" }
歇后语例子:
{ "riddle": "正月十五云遮月", "answer": "不露脸" }, { "riddle": "正月十五贴门神", "answer": "晚了半月" }, { "riddle": "正月十五贴春联", "answer": "晚了半月了" }, { "riddle": "正月十五卖元宵", "answer": "抱成团" }, { "riddle": "正月十五看花灯", "answer": "走着瞧" }, { "riddle": "正月十五赶庙会", "answer": "随大流" }
我把这份数据放到了Elasticsearch里,并且通过ES的Python接口elasticsearch-py提供后端检索服务,现在可以通过AINLP公众号对话接口检索了,感兴趣的同学可以一试,包括:
汉字检索:
词语检索:
成语检索:
歇后语检索:
感兴趣的同学可以关注AINLP公众号,直接公众号对话测试,更多功能可以参考:
一个有趣有AI的NLP公众号
注:原创文章,转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn
本文链接地址:推荐一份中文数据,再试试汉字、词语、成语、歇后语在线检索 http://www.52nlp.cn/?p=12087