Quantcast
Channel: 我爱自然语言处理
Viewing all articles
Browse latest Browse all 205

推荐一份中文数据,再试试汉字、词语、成语、歇后语在线检索

$
0
0

前段时间给公众号新增了一个成语接龙功能:AINLP公众号对话接口新增成语接龙,这个里面提到的项目用到了一份成语数据,包含了2万多条成语数据和释义。不过这个数据之外,推荐一个更棒的Github项目:

pwxcoo/chinese-xinhuahttps://github.com/pwxcoo/chinese-xinhua

这个项目收录了收录了 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语,并且以json格式提供了相关数据,非常方便:

项目结构:

chinese-xinhua/
|
+- data/ <-- 数据文件夹
|  |
|  +- idiom.json <-- 成语
|  |
|  +- word.json <-- 汉字
|  |
|  +- xiehouyu.json <-- 歇后语
|  |
|  +- ci.json <-- 词语

汉字例子:

    {
        "word": "吖",
        "oldword": "吖",
        "strokes": "6",
        "pinyin": "ā",
        "radicals": "口",
        "explanation": "喊叫天~地。\n 形容喊叫的声音高声叫~~。\n\n 吖ā[吖啶黄](-dìnghuáng)〈名〉一种注射剂。\n ────────────────—\n \n 吖yā 1.呼;喊。",
        "more": "吖 a 部首 口 部首笔画 03 总笔画 06  吖2\nyā\n喊,呼喊 [cry]\n不索你没来由这般叫天吖地。--高文秀《黑旋风》\n吖\nyā\n喊声\n则听得巡院家高声的叫吖吖。--张国宾《合汗衫》\n另见ā\n吖1\nā\n--外国语的音译,主要用于有机化学。如吖嗪\n吖啶\nādìng\n[acridine] 一种无色晶状微碱性三环化合物c13h9n,存在于煤焦油的粗蒽馏分中,是制造染料和药物(如吖啶黄素和奎吖因)的重要母体化合物\n吖1\nyā ㄧㄚˉ\n(1)\n喊叫天~地。\n(2)\n形容喊叫的声音高声叫~~。\n郑码jui,u5416,gbkdfb9\n笔画数6,部首口,笔顺编号251432\n吖2\nā ㄚˉ\n叹词,相当于呵”。\n郑码jui,u5416,gbkdfb9\n笔画数6,部首口,笔顺编号251432"
    }

词典例子:

{
    "ci": "总计", 
    "explanation": "1.总共计算。 \n2.犹统计。"}

成语例子:

{
    "derivation": "清·嬴宗季女《六月霜·恤纬》劝夫人省可闲愁绪,足食丰衣无所虑,何况俺爷贵胄都时誉。”", 
    "example": "无", 
    "explanation": "丰衣足食。形容生活富裕。", 
    "pinyin": "zú shí fēng yī", 
    "word": "足食丰衣", "abbreviation": 
    "zsfy"
}

歇后语例子:

   {
        "riddle": "正月十五云遮月",
        "answer": "不露脸"
    },
    {
        "riddle": "正月十五贴门神",
        "answer": "晚了半月"
    },
    {
        "riddle": "正月十五贴春联",
        "answer": "晚了半月了"
    },
    {
        "riddle": "正月十五卖元宵",
        "answer": "抱成团"
    },
    {
        "riddle": "正月十五看花灯",
        "answer": "走着瞧"
    },
    {
        "riddle": "正月十五赶庙会",
        "answer": "随大流"
    }

我把这份数据放到了Elasticsearch里,并且通过ES的Python接口elasticsearch-py提供后端检索服务,现在可以通过AINLP公众号对话接口检索了,感兴趣的同学可以一试,包括:

汉字检索:

词语检索:

成语检索:

歇后语检索:

感兴趣的同学可以关注AINLP公众号,直接公众号对话测试,更多功能可以参考:
一个有趣有AI的NLP公众号

注:原创文章,转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn

本文链接地址:推荐一份中文数据,再试试汉字、词语、成语、歇后语在线检索 http://www.52nlp.cn/?p=12087


Viewing all articles
Browse latest Browse all 205

Trending Articles