想/很/美满/
精确分词是一般意义上分词算法追求的目标。
多元分词对搜索引擎有重要意义,因为多元分词增加了冗余,所以和搜索引擎结合可以得到较多的匹配结果(相对精确分词而言)。
以下链接文字说明了盘古分词中的多元分词的原理:
2. 中文人名识别
以下链接是盘古分词中中文人名识别算法原理(包含如何消除歧义):
人名词典是ChsSingleName.txt, ChsDoubleName1.txt, ChsDoubleName2.txt,但没有看到姓氏的词典?
3. 中文未登词识别
4 盘古的词典管理工具
包含了词名,词性,词频信息。
5. 扩展思考
如果让盘古分词支持地名,商品名称,该如果进行?只要将这些名称加入词库就可以了吗?
后续需要查阅中文人名,地名,组织名识别的相关论文。
其他分词工具:基于Python的结巴分词