当时方位: 主页 > Linux学院 > 企业运用 > 运用 > Content Manager OnDemand供给的智能全文检索的新特性

Content Manager OnDemand供给的智能全文检索的新特性

2014-08-08 15:34 来历:IBM 作者:王贝贝 人气指数: 我要谈论

Content Manager OnDemand 的客户不只能够查找文档相关的元数据,而且在 V9.0 版别之后,能够经过 Content Manager OnDemand 供给的智能全文检索(FTS)的新特性,能够对归档数据的内容部分进行才智的全文检索。

全 文检索(FTS)新特性以新的办法发布,经过全文检索引擎完成文档的抽取解析,树立用于全文检索的索引和内容查找。这样的优点是能够将全文数据搬运 到 OnDemand 库和目标之外的其它机器上进行处理。除了能够处理惯例的 Advanced Function Printing(AFP),行数据和 PDF 文档,该引擎还能够处理许多其它类型的二进制格局文件,包括 Microsoft Office 和 XML 文件等等。全文检索(FTS)支撑对新数据的索引,也支撑对既有数据的索引。从办理客户端既能够设置对新装载数据主动的进行全文检索操作,而关于历史数据 则需求经过指令行或许 ODWEK API 进行操作。一同在内容查找上供给了更多高档查找的选项。客户能够运用通配符查找,含糊查找,近似度查找和布尔查找等组合。

与之合作的新组件 FTS Exporter 是包括在 OnDemand 中,负责处理一切对全文检索(FTS)的更新操作。

Content Manger OnDemand 全文检索的组件架构

Content Manger OnDemand 全文检索的组件架构参阅下图。

图 1. 全文检索组件架构


点击这儿给我发消息

这些组件包括 Content Manager OnDemand ,全文检索(FTS)以及 FTS Exporter 组件。

全文检索(FTS)

全 文检索(FTS)供给了全文检索的流水线服务,从各类干流的二进制格局文件中进行文本抽取,供给大规模的编码支撑及多言语支撑。在典型的配备 中,文档内容和特点从 OnDemand 传送到全文检索(FTS)进行预处理。预处理包括文本抽取,言语辨认,符号化和言语分析。在预处理完毕后,文档被送去做索引。

全文检索(FTS)的文本抽取引擎能够处理不同类型的文档类型,包括 Microsoft Office 和 XML 格局等。留意 AFP 和行数据的文本抽取是在 FTS Exporter 组件中处理的。关于图画类的文件不支撑全文检索。

索引结构

在 全文检索(FTS)将树立用于全文检索的索引,并以逻辑组的办法进行分段,称之为 Collection。分段模型相似于 Ondemand 的数据表分段。关于 OnDemand 中的每张数据表,在全文检索(FTS)中索引后,将树立其对应的 Collection。也就是说,全文检索(FTS)中的 Collection 和 OnDemand 中的数据表是 1:1 的联络。

图 2. OnDemand 分段表和 FTS Collection 的映射联络


Content Manager OnDemand供给的智能全文检索的新特性

Collection 的命名标准是 InstanceName_TableName,这样的优点是有较好的水平扩展性。例如,当用户在进行全文检索的一同指定了日期规模,则将引证 OnDemand 的分段表,来缩小被查询文档的规模,并确认哪些 Collection 才是必需的。

FTS Exporter

在 OnDemand 数据库中引入了新的数据表 arsftiwork,用于保护全文检索的作业记载。即每逢某个文档需求为全文检索树立索引时或其它更新操作时,在 arsftiwork 数据表中将会新建一条记载。在运用程序组启用全文检索后,新装载的数据将触发 arsftiwork 数据表。相同的,当用指令行对既有数据做全文检索树立索引时,也将触发 arsftiwork 数据表。

FTS Exporter 连接到 arsftiwork 数据表,并处理表中的作业记载。首要将记载相关的文档从 OnDemand 检索出来,然后再推送到全文检索(FTS)。FTS Exporter 处理一切与全文检索索引相关的新增、更新和删去使命。

FTS Exporter 组件坐落 OnDemand 装置途径下的 jars 子目录,称号 ODFTIExporter.jar 的 Java 运用。FTS Exporter 组件能够在 OnDemand 地点的体系上运转,也能够在其它 TCP/IP 连通的体系上运转。

Content Manager OnDemand 全文检索配备办法

装置需求

OnDemand 全文检索东西是有独自的装置,而且也是独自付费的功用。本文以版别 Content Manager OnDemand(以下简写为 CMOD)9.0 为例,先介绍全检索的装置需求。

全文检索支撑如下操作渠道,

  • AIX
  • SUSE Linux ES
  • RedHat Enterprise Linux
  • Solaris
  • Solaris

全文检索的最小运转硬件需求:

  • 1 处理器
  • 2G 内存
  • 磁盘空间

实践上磁盘空间,处理器和内存的需求首要影响要素:

  1. 全文检索的调集数量以及每个调集里的文档数量
  2. 并发索引的处理的调集数量
  3. 索引查询吞吐量要求


装置进程和办法

全文检索能够和 OnDemand 装置装载同一台物理机器,也可根据实践的负载均衡,装置在独自的物理机器上。本文的描绘的是一体机(All in One)的装置办法。

首要将装置文件拷贝到 OnDemand 全文检索上。

操作体系 装置软件称号
AIX odftsaix.bin
SunOS odftssun.bin
Linux odftslinux.bin
zLinux Odftszlinux390.bin
Windows odftswin.exe

然后运转装置文件。

./装置文件称号 –i console

比方在 AIX 操作体系装置指令:./odftsaix.bin –i console

配备与办理

配备办理分为两部分,榜首部分是 CMOD 端的配备办理,首要是更新配备文件和经过 Windows 办理端接口进行设置;第二部分是全文检索端的配备办理。

CMOD 端的配备办理

  • 首要配备 CMOD 的配备参数,使其支撑全文检索功用。

以 AIX 渠道为例,修改 ars.cfg 文件,增加配备参数:

ARS_SUPPORT_FULL_TEXT_INDEX=1

补白:假如是 SunOS, 还要增加参数 ARS_FULL_TEXT_INDEX_TOKEN=fIqBxTQ= 作为全文检索和 CMOD 的通讯令牌。

Windows 办理端接口配备

  • 运用程序组

    在运用程序组的配备中,启用全文检索选项,一同配备全文检索服务的地址和端口。

    图 3. 办理端配备

    Content Manager OnDemand供给的智能全文检索的新特性

    在运用程序组配备中,增加全文检索字段。

    在图 4 的运用程序组字段界说窗口,增加全文检索字段名,界说全文检索的字段为 fti。

    图 4. 运用程序组全文检索字段

    Content Manager OnDemand供给的智能全文检索的新特性

    在图 5 的字段信息界说窗口,界说该字段的特点。

    图 5. 运用程序组全文检索字段特点

    Content Manager OnDemand供给的智能全文检索的新特性

    在图 6 的权限特点页,设置相关的用户有全文检索的权限,例如 testuid 用户有全文检索的权限。

    图 6. 设置用户权限

    Content Manager OnDemand供给的智能全文检索的新特性
  • 文件夹

    文件夹是最终用户检索文档的界面,配备全文检索字段。用户能够经过检索界面进行全文检索,罗列出检索成果。有四种文件夹字段类型。

    • 全文检索字段 – Full Text Index Search,这是有必要选的字段。经过这个字段,用户输入要全文检索的内容,进行检索查询。

      图 7. 文件夹全文检索字段 Full Index TextSearch

      Content Manager OnDemand供给的智能全文检索的新特性
    • 全文检索分值 – Full Text Index Score,这是可选字段。经过这个字段的回来成果,能够了解全文检索的匹配度。

      图 8. 文件夹全文检索字段 Full Index Score

      Content Manager OnDemand供给的智能全文检索的新特性
    • 全文检索高亮 – Full Text Index Highlight,可选字段。经过该字段的回来的成果,能够看到匹配成果的上下文信息。

      图 9. 文件夹全文检索字段 Full Index Highlight

      Content Manager OnDemand供给的智能全文检索的新特性
    • 全文检索摘要 – Full Text Index Summary,可选字段。经过该字段回来的成果,能够看到检索到的文档前 80 个字的内容。

      图 10. 文件夹全文检索字段 Full Index Summary

      Content Manager OnDemand供给的智能全文检索的新特性

FTS 全文检索的配备与办理

全文检索装置好之后,假如紧紧演示或许测验运用,缺省配备不用做改动,直接发动服务即可。

下面是在 AIX 渠道上发动 FTS 的示例:

# cd /opt/IBM/odfts/V9.0/bin

# ./startup.sh
IQQG0337I The server [version: 2.0.0.0-1.1-2593] started
 successfully. The server is listening on port 8191.
#

停止 FTS 全文检索服务:

# cd /opt/IBM/odfts/V9.0/bin

# ./shutdown.sh 
IQQG0088I The shutdown request is being sent: localhost:8191.
IQQG0089I The shutdown request was sent successfully with a response code of 200.
IQQG0025I Shutdown is complete.

接着咱们介绍别的两个办理指令行。

adminTool – 办理东西首要是办理调集(collection), 盯梢日志配备以及的配备。

# ./adminTool.sh

Usage:
 adminTool admin_command [-configPath value] [-locale value]
  [-collectionName value] [-collectionPath value] [-logLevel value]

 Where:
 admin_command:
 delete: Deletes the specified collection
 optimizeIndex: Optimizes the specified collection for fast search
 optimizeIndexStatus: Prints the optimization status
 status: Prints the status of all collections
 version: Prints the version number of the search server
supportedClientVersions: Prints the list of supported client versions
 configureTrace: Sets the search server trace to different log levels
 printLogLevel: Prints the current search server log level setting
 help: Prints this help message

 -configPath value
 The fully qualified path to the configuration directory, such as 
 /opt/ibm/search/config.
 -locale value
 The 2- or 5-character locale code, such as en, de, or zh_TW. If
 omitted, the server locale is used (optional).
 -collectionName value
 The name of collection that you want to delete or obtain status 
 information about.
 -collectionPath value
 The full path to the directory where collections are stored (optional).
 -logLevel value
 The supported log levels are OFF SEVERE WARNING INFO CONFIG 
 FINE FINER FINEST ALL

 Example to delete the Default collection:
 adminTool delete -configPath /opt/ibm/search/config -collectionName Default

 Example to print the status of all collections using the French locale:
 adminTool status -configPath c:\Program Files\IBM\Search\config 
 -locale fr_FR

configTool – 用户办理配备体系参数

# ./configTool.sh
Usage:
 configTool <command> [-command_options] [-locale value] 
 [-configPath value]

 command:

 list: Prints information about configuration parameters and their values.
 set: Specifies system-level or collection-level parameter values.
 generateToken: Generates a token for communicating with the server.
 upgradeConfigFolder: Upgrades the server configuration.

 For help on these commands and their command options, enter:
 configTool <command>

 printToken: Prints the current token.
 sysinfo: Prints system information, including:
 build version, operating system, and JAR manifest version
 help: Prints this help message.

 -locale value
 The 2- or 5-character locale code, such as en, de, or zh_TW. 
 If omitted, the en locale is used. (optional)

 -configPath value
 The fully qualified path to the configuration directory, such as
 /user/home/search/config.
 If omitted, the default directory (../config) is used. (optional)

发动 CMOD Exporter

Exporter 是一个 java 运用,与 CMOD 装置包一同装置在 CMOD 目录下。

# cd /opt/IBM/ondemand/V9.0/jars
# ls -l
total 7088
-r--r--r-- 1 root system 165199 Jan 10 2013 ODFTIExporter.jar
-r--r--r-- 1 root system 575389 Jan 10 2013 commons-collections-3.2.1.jar
-r--r--r-- 1 root system 350332 Jan 10 2013 commons-configuration-1.7.jar
-r--r--r-- 1 root system 279193 Jan 10 2013 commons-lang-2.5.jar
-r--r--r-- 1 root system 315805 Jan 10 2013 commons-lang3-3.1.jar
-r--r--r-- 1 root system 60841 Jan 10 2013 commons-logging-1.1.1.jar
-r--r--r-- 1 root system 1861910 Jul 30 2012 ecmts.jar
-rw-r--r-- 1 root system 368 Nov 27 00:54 od1.cfg

该运用首要是将在 CMOD 中界说好的需求全文检索的数据导入到全文检索中,它起着桥梁的效果。

发动 Exporter 能够经过两种办法:

办法一,直接发动。

java –jar ODFTIExporter.jar index –dbEngine 
DB2 –dbHostname hostname1.com –dbPort 60000 
–dbUser admin –dbPassword testpasswd –dbName 
ARCHIVE –dbUser ROOT odInstance ARCHIVE –odUser
 admin –odPassword testpasswd –odInstallDir 
 /opt/IBM/ondemand/V9.0 –pollDelay 60

办法二,先运用 Exporter 运用创立配备文件,把参数写入配备文件,然后经过调用配备文件发动 Exporter.

java –jar ODFTIExporter.jar configure 
–configFile od1.cfg –dbEngine DB2 –dbHostname 
hostname1.com –dbPort 60000 –dbUser admin 
–dbPassword testpasswd –dbName ARCHIVE 
–dbUser ROOT odInstance ARCHIVE –odUser admin 
–odPassword testpasswd 
–odInstallDir /opt/IBM/ondemand/V9.0 –pollDelay 60
java –jar ODFTIExporter.jar index –configFile od1.cfg

对既有数据树立全文索引

经过 arsdoc 指令树立全文索引

能够运用 arsdoc 指令的 fti_add 参数来对既有数据树立全文索引。需求指定“-i”参数设置 SQL 句子的规模或是“-X”参数指定某次装载的 Load ID。

# arsdoc fti_add -f "FTS-bob16-Student Information3-test"
 -h ARCHIVE -i "where 1=1" -u testuid -v -G "FTS-bob16-Bills3"

ARS6108I Starting arsdoc.
ARS6165I arsdoc fti_add -f FTS-bob16-Student Information3-test 
-h ARCHIVE -i where 1=1 -u testuid -v -G FTS-bob16-Bills3
ARS6822I Attempting login for userid 'testuid' on server 'ARCHIVE' ...
ARS6080I Login successful
ARS6062I Searching for folder 'FTS-bob16-Student Information3-test' ...
ARS6084I Search successful
ARS6063I Searching for documents in 'FTS-bob16-Student Information3-test' ...
ARS6117I Querying database with SQL string 'where 1=1'
ARS6084I Search successful
ARS6152I Adding 40 documents to Full Text Index
ARS6150I Full Text Index add successful
ARS6026I arsdoc completed.

假如要删去相应的全文索引,能够运用 arsdoc 指令的 fti_release 参数。

经过 ODWEK 树立全文索引

可 以经过 ODWEK Java API 的 ODFolder.FTIAddHits() 办法新建全文索引,该办法的参数是经过 search() 办法得到的 ODHits 目标。而 ODHits 对应的文档将经过 FTS Exporter 发送来树立全文索引。

另一个办法 FTIReleaseHits() 用来从 FTS 删去相关的全文索引。

更多信息请参阅 IBM Content Manager OnDemand Web Enablement Kit Java APIs: The Basics and Beyond, SG24-7646。

全文检索成果展现与介绍

前面咱们现已对 CMOD 以及界说元素的配备 (比方运用程序组,文件夹等),咱们先装在数据到启用全文检索的运用程序组。

# arsload -u testuid -h archive -g 
				FTS-bob16-Bills2 -X G -nvf FTS.2.FTS-bob16-Bills2.FTS-bob16-Bills2
ARS4315I Processing file >FTS.2.FTS-bob16-Bills2.FTS-bob16-Bills2<
ARS4334I Load Version <9.0.0.1e> Operating System <AIX> <7.1> OS
Userid <root> Install Location </opt/IBM/ondemand/V9.0/>
ARS4335I Server Version <9.0.0.1e> Operating System <AIX>
 <7.1> Database <DB2> <10.01.0000>
ARS4312I 01/02/14 03:53:13 -- Loading started, 76560 bytes to process
ARS1144I OnDemand Load Id = >5190-1-0-5FAA-19940826000000-19940826000000-5191<
ARS1146I Loaded 40 rows into the database
ARS1175I Document compression type used - OD77. Bytes Stored = >7522< Rows = >40<
ARS4310I 01/02/14 03:53:13 Loading completed
ARS4317I Processing successful for file >FTS.2.FTS-bob16-Bills2.FTS-bob16-Bills2<

因为运用程序组现已设置为主动进行全文索引,因此在数据装载时,文档将主动树立全文索引,并存储于 FTS 中。

登陆 OnDemand 客户端后,翻开相应的全文检索文件夹进行全文检索。例如,设置 Full Index TextSearch 字段为 55402,即检索出满意查找条件的一切包括“55402”的文档。

图 11. 全文检索查询成果

Content Manager OnDemand供给的智能全文检索的新特性
为您引荐: 新特性 智能全文检索

其他相关的新闻

咱们感兴趣的内容
小同伴独爱的新闻
小同伴还重视了以下信息
小同伴重视的焦点

小同伴都在重视的抢手词

新服 缤纷活动 帆海世纪 芈月传 暗黑道具 萌乐网 苹果发布会 最新谍照 三国令 剑雨江湖 怎样修炼战骑 页游 怎样修炼同伴 木甲国际 仙侠道2 推黑科技 页游形式 武圣试炼场 街机玩法 蓝月传奇 个人BOSS玩法 哥们网 九阴绝学 仗剑出鞘 全新形式 范伟打天下 全新元神玩法 七大神兵简介 新手攻略 跑腿使命 门派五行 城战礼包 页游界 泥石流 傅园慧 经典网页游戏 耐玩 盘点 玉石攻略 提高人物 大黑 实装特点 神兵攻略 闻名莽荒 莽荒纪 手持神兵 土豪梦 万世 开学清单 财富赚不断 天书国际 大黑游戏 资源战场 ppwan 天问 激战 全国大战 雄霸一方 新增宠物技术 肯定小能手 花千骨 三尾章鱼 风色轨道 双枪手 弑之神 缤纷好礼 惊喜六重连 帮会 中秋福利 克己月饼 九阴真经 玩家 五周年留念 留念银币 名动三界 新服资料片 画江山 勇战妖魔 邪恶势力 上古降魔 老司机玩法 坐骑揭秘 黑科技 竞技场攻略 铁血皇城 披风玩法 书剑恩仇录 配备强化攻略 户外BOSS玩法 全网曝光 赤壁传说 半回合制国 ACT 奇珍商城 热血战歌 传奇瑰宝抽奖 翻开办法 门徒 门徒获取玩法 三大萌宠简介