佛山SEO
SEO优化
SEO知识
理论研究
SEO实例
顺德SEO诊断
SEO工具
SEM
网赚
问答
全文检索与Lucene
藏书人摘要:Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。 Lucene的作者:Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统...
Lucene
不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
Lucene的作者:Lucene的贡献者
Doug Cutting
是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,后在Excite担任高级系统架构设计师,目前从事于一些INTERNET底层架构的研究。他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。
Lucene的发展历程:早先发布在作者自己的
www.lucene.com
,后来发布在
SourceForge
,2001年年底成为APACHE基金会jakarta的一个子项目:
http://jakarta.apache.org/lucene/
已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎,比较著名的有:
J
ive
:WEB论坛系统;
Eyebrows
:邮件列表HTML归档/浏览/查询系统,本文的主要参考文档“
TheLucene search engine: Powerful, flexible, and free
”作者就是EyeBrows系统的主要开发者之一,而EyeBrows已经成为目前APACHE项目的主要邮件列表归档系统。
Cocoon
:基于XML的web发布框架,全文检索部分使用了Lucene
Eclipse
:基于Java的开放开发平台,帮助部分的全文索引使用了Lucene
对于中文用户来说,最关心的问题是其是否支持中文的全文检索。但通过后面对于Lucene的结构的介绍,你会了解到由于Lucene良好架构设计,对中文的支持只需对其语言词法分析接口进行扩展就能实现对中文检索的支持。
来源:车东的博客
http://www.chedong.com/tech/lucene.html
下一篇:
信息检索知识-SEOer必备知识
摘要:信息检索技术简介为了使读者对信息检索研究的进展有更深的了解,这里我们简单介绍一下信息检索技术的基本原理。信息检索系统流程大致如下图所示:总体上,系统可分为四个部分:1. 数据预处理,2.索引生成,3. 查询处理,4. 检索。下面我们分别对各个部分
相关文章:
贝叶斯与概率理论
IIS W3C日志记录字段和HTTP状态代码的
用搜索引擎机器人的语言交流
关键词的计算规则
人工神经网络
大地优化的本质
SEO文章随机推荐
确定网页的words 索引
关于WEB日志里的"200 0
语义分析
贝叶斯算法bayesian垃圾
网页搜索引擎的发展方
baidu分词算法分析之二
信息检索知识-SEOer必备
大地优化的本质
搜索引擎的字典和于字
IIS W3C日志记录字段和
热门关注
Lucene基本相关度算法与
IIS W3C日志记录字段和
关键词权重的量化方法
搜索引擎的算法
什么是Latent Semantic In
什么是用户体验,UE是
信息检索知识-SEOer必备
搜索引擎的分类
搜索引擎三大定律
百度搜索引擎核心算法
隐性语义索引
hit的深解和SEO的结合
搜索引擎对用户点选
人工神经网络
baidu分词算法分析之一
关于WEB日志里的"200 0
Hash算法及应用
baidu分词算法分析之二
排序的的计算规则
SEO实验的可行性