摘要随着中文网页、中文电子出版物及中文数字图书馆的兴起和流行,中文信息处理越来越显示出其重要性,而中文自然语言处理首要的问题就是将文字进行分割。论文针对中文分词技术中的机械分词算法进行研究,综述了中文分词的发展状况,分析了前向、后向最大匹配算法及MMSEG分词系统并比较这些算法的优缺点。实验表明MMSEG分词系统的分词效果较好,分词正确率能够达到95%以上,此外,词典的丰富性和准确度对分词结果影响也很大。51314
毕业论文关键词 中文分词 机械分词 最大匹配
毕业设计说明书外文摘要
Title Research on Chinese Word Segmentation Technology
Abstract
With the popularity of Chinese web pages, Chinese electronic publications and the rise of Chinese digital library, Chinese information processing becomes more and more important. the text segmentation is the primary problem of Chinese natural language processing. This paper studied at mechanical word segmentation of Chinese word segmentation and summarized the current development situation of Chinese word segmentation. Comparing before and after the maximum matching algorithm and the MMSEG word segmentation system, we present the advantages and disadvantages of these algorithms. Through the experiment, we found that MMSEG word segmentation is better, with its segmentation accuracy reaching more than 95%. The richness and accuracy of Dictionary also has a very big impact on the segmentation results.
Keywords Chinese Word Segmentation Mechanical Word Segmentation Maximum Matching Algorithm
目 次
1 引言 1
1.1 中文分词背景意义 1
1.2 中文分词技术发展现状 2
2 分词算法技术 4
2.1 词典结构 4
2.2 分词查询算法 6
2.3 常用机械分词算法 8
2.4 MMSEG分词算法 9
3 分词算法具体实现 11
3.1 词典设计 11
3.2 算法设计 14
3.3 MFC框架 20
4 几种分词算法的结果比较 24
4.1 改进的MMSEG分词效果 24
4.2 前向最大匹配与后向最大匹配的比较 25
4.3 本章小结 28
结论 29
致谢 30
参考文献 311 引言
本章节主要围绕中文分词算法展开,简要介绍中文分词技术的重要研究意义、应用背景以及当前分词技术的发展现状。
1.1 中文分词背景意义
随着信息技术的发展,人类进入信息时代,网络和个人计算机的普及使中文网页、中文电子出版物及中文数字图书馆等迅速兴起并逐渐流行起来。这些涉及到中文的网络产品或电子产品对中文信息的处理提出了更高的要求。而人工智能、人机对话、语音合成、自动校对等技术在一定程度上也以中文自然语言信息的处理为基础。中文分词则是中文信息处理首要解决的问题[1]。