什么是全文搜索 全文搜索的方法
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,以下是由小编整理关于什么是全文搜索的内容,希望大家喜欢!
全文搜索的方法
主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点。
全文搜索的系统
全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。
全文搜索系统的功能特点
强大的信息采集能力
全文检索系统是以先进的搜索技术为核心,并针对专业用户所要求的搜索深度深、采集精度高和抓取速度快等进行了专门的优化,采用了分布式多线程并发指令执行体系结构,95%信息分钟级到达本地。能够采集多种动态和静态网页类型、多种文档、数据库类型,同时网页实时增量采集技术实现分秒监测网站信息变化动态,使网站随时获取最新的信息资源。
分秒级的实时检索
全文检索系统采用独有的增量实时索引技术保证信息即时采集即时检索,使用户随时检索到行业/地区最新的信息。
快速的检索响应
全文检索系统可实现亚秒级的检索速度以及每秒上百次的并发检索支持,保证全面快速的响应用户检索需求。
全面的检索功能
全文检索系统可实现全文检索,完全支持布尔逻辑检索、支持n阶渐进检索、支持同义词检索、支持自定义用户词典,模糊检索,相关检索等,并可以由系统管理员人工过滤不当网页,为用户提供最为适当的检索结果。
精确的检索结果
全文检索系统采用智能中文切词技术,避免中文检索的歧义与多义现象,同时采用相关性算法对网页进行排序,保证检索相关性最高的页面放在最前面。
丰富的检索结果展示
全文检索系统为用户提供丰富的检索结果展示,能够根据每个网站的不同风格和要求定制结果显示模版。检索结果包括智能动态摘要、独有的网页快照,以及多种检索结果排序方式等等。能够极大的方便用户对检索结果的浏览查看,提高用户对检索效果的满意度。
基于Web的系统管理平台
全文检索系统采用标准的B/S架构,系统管理员可以随时随地通过浏览器登陆Web管理界面对整个系统的各项功能进行管理和系统维护,操作简单易用,无需专业培训即可迅速上手。