给Lucene加入性能更好的中文分词
转自:http://blog.donews.com/windshow/archive/2005/09/23/564655.aspx
Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的为1-gram.
这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,用户得到的查询结果中垃圾也是很多.
经过认真研究了Lucene的Analysis包,我写了一个TjuChineseAnalyzer,效果不错.
简要介绍一下:
TjuChineseAnlyzer 的功能强大,在中文分词方面使用J ...
Stored
Indexed
Tokenized
...
在次声明:转载
Lucene:基于Java的全文检索引擎简介
作者:车东 发表于:2002-08-06 18:08 最后更新于:2007-04-12 11:04
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。
http://www.chedong.com/tech/lucene.html
Lucene是一个基于Java的全文索引工具包。
基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史
全文检索的实现:Luene全文索引和数据库索引的比较
中文切分词机制简介:基于 ...
工作快两个月了,找到点程序员的感觉,就不喜欢每天重复旧的东西,想每天都能学些新的知识,这样感觉不错!
现在任务是用开源的lucene全文检索引擎,大家可以一起讨论讨论!
呵呵:)
FileUpload的学习笔记 (转载)
近两天来由于项目需要使用上传组件,于是我仔细分析了Cos和FileUpload的源代码,并对它们的性能进行了测试比较,使用2M、20M、45M、200M的上传大小测试三种组件所花费的时间(单位为ms)结果是:
2 ...
文章来源:转发
目 录
1. 介绍
2. 安装
3. 配置
4. 应用
5. 规定
介绍
本开发规范用来指导现代公司EMR项目组成员在项目开发过程中对EMR工程的版本控制。
一.目的
防止意外的文件丢失,反追踪到早期版本、并能对版本进行分支、合并和管理。
二.范围
现代公司EMR项目中的全体开发成员。
三.概要
本开发指导将从服务器端配置、客户端应用等方面,指导软件开发人员在Eclipse_3.2下用CVS进行版本控制。
安装
一个项目往往有多人参与,如何协调各个人的开发工作,就成为项目开发小组需要直接面对的问题。一般的解决方案 ...
“你太有才了”成最新流行语
2007年02月20日 10:38:15 来源:现代快报
“你太有才了!”5岁的妞妞一声赞美,笑翻了全家人。
昨天上午,家住南京市南苑小区的赵玉梅奶奶给外孙发红包时,问:“这次期末考试考了多少分啊?”“语文99分,数学100分。”小外孙自豪地说。“你太有才了!”5岁的妞妞插了一句,把一家人笑得前俯后仰。原来,妞妞看了春节联欢晚会,对宋丹丹在小品中反复用来表扬赵本山的“你太有 ...
熊猫烧香,给大家拜年
新的1年已经开始了,愿好事接2连3心情4春天阳光,生活5颜6色7彩缤纷偶尔8点小财一切烦恼抛到9宵云外
请接受我10全10美的祝福
一拜全家好!
二拜困难少!
三拜烦恼消!
四拜不变老!
五拜儿女孝!
六拜幸福绕!
七拜忧愁消!
八拜收入高!
九拜平安照!
十拜乐逍遥!
都象我一样拜拜吧!
2007年CCTV春节联欢晚会最终节目单
一、开场歌舞《花开中国年》(表演:陈莉莉严当当谌蓉马一鸣等)
二、歌组合《欢乐和谐·民族情》
1、藏族敬酒歌(表演:香格里拉组合)
2、朝鲜族敬酒歌(表演:卞英花)
3、彝族敬酒歌(表演:李怀秀李怀福新稻子组合)
4、维吾尔族敬酒歌(表演:阿尔法)
& ...
- 浏览: 14657 次
- 性别:

- 来自: 地球

- 详细资料
搜索本博客
最近加入圈子
最新评论
-
工作第一天
是呀,难者不会,会者不难
-- by ljm3256748 -
工作第一天
CVS这么简单,还用学?
-- by maggieli -
“你太有才了”成最新流行 ...
这个小品的确很一般。就这句好玩一点。
-- by ouspec -
如何学习Hibernate
在中国的论坛上,经常会出现这样的“文章出口转内销”的事情…… 像[转载不注明出 ...
-- by Allen -
如何学习Hibernate
http://www.javaeye.com/topic/255
-- by daoger






评论排行榜