<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">
<wml>
<head><meta forua="true" http-equiv="Cache-Control" content="max-age=0" /></head>
<card title="当前几个主要的Lucene中文分词器的比较" id="card1">
<p> 游客</p><p>
标题:当前几个主要的Lucene中文分词器的比较<br/>
正文:<br/>
 1. 基本介绍：paoding ：Lucene中文分词&amp;ldquo;庖丁解牛&amp;rdquo; Paoding Analysisimdict ：imdict智能词典所采用的智能中文分词程序mmseg4j ： 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik ：采用了特有的&amp;ldquo;正向迭代最细粒度切分算法&amp;ldquo;，多子处理器分析模式2. 开发者及开发活跃度：paoding ：qieqie.wang， google code 上最后一次代码提交：2008-06-12，svn 版本号 132imdict ：XiaoPingGao， 进入了 lucene contribute，lucene trunk 中 contrib/analyzers/smartcn/ 最后一次提交：2009-07-24，mmseg4j ：chenlb2008，google code 中 2009-08-03 （昨天），版本号 57，log为：mmseg4j-1.7 创建分支ik ：linliangyi2005，google code 中 2009-07-31，版本号 413. 用户自定义词库：paoding ：支持不限制个数的用户自定义词库，纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本，并加载imdict ：暂时不支持用户自定义词库。但 原版 ICTCLAS 支持。支持用户自定义 stop wordsmmseg4j ：自带sogou词库，支持名为 wordsxxx.dic， utf8文本格式的用户自定义词库，一行一词。不支持自动检测。 -Dmmseg.dic.pathik ： 支持api级的用户词库加载，和配置级的词库文件指定，无 BOM 的 UTF-8 编码，rn 分割。不支持自动检测。4. 速度（基于官方介绍，非自己测试）paoding ：在PIII 1G内存个人机器上，1秒 可准确分词 100万 汉字imdict ：483.64 (字节/秒)，259517(汉字/秒)mmseg4j ：<br/><a href="http://camnpr.com/wap.asp?mode=WAP&amp;act=View&amp;id=343&amp;Page=1">[&lt;&lt;]</a><a href="http://camnpr.com/wap.asp?mode=WAP&amp;act=View&amp;id=343&amp;Page=1">[[1]]</a><a href="http://camnpr.com/wap.asp?mode=WAP&amp;act=View&amp;id=343&amp;Page=2">[2]</a><a href="http://camnpr.com/wap.asp?mode=WAP&amp;act=View&amp;id=343&amp;Page=3">[3]</a><a href="http://camnpr.com/wap.asp?mode=WAP&amp;act=View&amp;id=343&amp;Page=3">[&gt;&gt;]</a><br/>
<br/>
<a href="wap.asp?act=Com&amp;id=343">查看评论(0)</a><br/>
<a href="wap.asp?act=AddCom&amp;inpId=343">发表评论</a><br/><br/>

<br/>

<br/>
<a href="http://camnpr.com/wap.asp">首页</a>
</p>
</card>
</wml>