菜单
  

     图2.1 整词二分词典结构示意图

    查询时根据待查词的首字哈希值能够确定以该字为首的所有词的位置。根据首字的不同可以将词典分为许多小数组,使分散的小数组均小于4kB,这样可以方便预取到内存中。比如可以将所有首字相同的词语放在一起。较大的数组也可以采取相应的措施将其分割成小数组。如果同一首字下的词语过多则可以考虑根据第二个字的哈希值对该首字下的词语再分,这种类似多级词典结构的词典构造。

    这种词典结构简单,占用空间小且便于维护,但其效率低。这种词典结构对算法的要求比有序线性词典对算法的要求高。

    3)基于逐字二分的分词词典机制

    这种词典的结构与整词二分法的词典结构相同,只是在查询时逐字二分采用“逐字匹配”,每次仅比较单个的汉字。基于逐字二分的词典结构可做到效果和TRIE索引树一样,不需要预知待查词的长度,并在扫描汉字串的过程中就能得到所有可能的切分。所以这不是完全意义上的逐字匹配。逐字匹配查询效率高但词典文件复杂,整词二分效率差但其词典的数据结构简单。

    4)基于TRIE索引树的分词词典机制

    基于TRIE索引树的词典主要由首字散列表和TRIE索引树结点两部分组成。

  1. 上一篇:光照不均的图像预处理算法的研究
  2. 下一篇:基于两级框架的高斯过程回归(GPR)算法图像超分辨率技术研究
  1. 药盒图像中文字分割算法的实现

  2. ADS软件雷达前端建模及系统仿真

  3. Ku波段卫星通信抛物面天线的设计

  4. 十二层带中心支撑钢结构...

  5. 酸性水汽提装置总汽提塔设计+CAD图纸

  6. 中考体育项目与体育教学合理结合的研究

  7. 大众媒体对公共政策制定的影响

  8. java+mysql车辆管理系统的设计+源代码

  9. 河岸冲刷和泥沙淤积的监测国内外研究现状

  10. 杂拟谷盗体内共生菌沃尔...

  11. 当代大学生慈善意识研究+文献综述

  12. 电站锅炉暖风器设计任务书

  13. 乳业同业并购式全产业链...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回