当时方位: 主页 > Linux学院 > 程序规划 > Java > 运用Weka和IBM BLU纵列数据库开发一个数据发掘运用程序

运用Weka和IBM BLU纵列数据库开发一个数据发掘运用程序

2014-05-21 10:48 来历:IBM 作者:Krunal M. Vora 人气指数: 我要谈论
本文将了解怎么运用 Weka 统计剖析东西和 IBM BLU 纵列数据库来开发一个数据发掘运用程序。Codename: BlueMix 是一款 beta 级产品,跟着咱们不断让其功用愈加完善和更易于运用,它也将不断改进。咱们会尽心竭力坚持本文最新,但并不总是彻底跟得上现状。感谢咱们的了解!

作为一家无线服务供货商公司的客户剖析小组中的数据科学家,咱们想运用客户数据来猜测客户丢失状况。关于电信职业来说,客户保存是一个严重应战,在该职业中,客户年度丢失率高达 40%。假如咱们能够猜测哪些客户存在活动的危险,那么咱们的公司就能够在客户将事务转向别处之前采纳相应的办法来留住客户。即使是很少的客户丢失,也会对咱们的企业底线产生重要的影响。

咱们决议构建一个能够随时刻的推移而增强的快速 Web 运用程序。咱们的运用程序运用了分类算法代码,该算法是咱们运用开源机器学习东西 Weka 经过 Java™ 言语开发的。在 BlueMix 中,咱们能够布置自己的 Java 运用程序,并运用 BLU Acceleration 剖析数据库服务的优势对咱们的客户数据进行剖析。BLU Acceleration 供给了简略性和功用,假如咱们决议扩展规划或增强运用程序来履行其他类型的数据剖析,那么还能够供给企业级的运用程序。最终,咱们挑选运用 Twitter Bootstrap 作为 Web 开发结构,由于它供给了移动先行 Web 界面的灵活性,并且能够轻松习惯那些用来履行咱们的剖析的混合设备和阅读器。

了解怎么才能在 BlueMix 中构建一个相似的运用程序。咱们假定您具有适用于您的运用程序的必要代码,咱们还供给了一些运用程序代码和数据,运用它们作为样例,协助您开端了解怎么操作。

构建相似运用程序的前提条件

  • 了解 Java 运用程序开发
  • 了解现代的前端结构,例如 Twitter Bootstrap
  • 对统计剖析东西有必定的了解,例如 Weka 或 R

第 1 步. 在 Codename: BlueMix 中创立运用程序

拜访 Codename: BlueMix 并登录。

图 1.

点击这儿给我发消息

在仪表板页面上,单击 Add an application。

在本例中,您将创立一个 Java 运用程序。在 Runtimes 下,挑选 .java liberty (Liberty for Java)。

在弹出窗口中,单击 CREATE APP。

鄙人一个弹出窗口中,填写运用程序称号和主机,然后单击 CREATE。

图 2.

BlueMix 登录屏幕的屏幕截图

 

Codename: BlueMix 在您的作业区中创立运用程序并发动 Java 运转时。您可经过仪表板上显现确实认信息来获悉成功发动运用程序的时刻。

图 3.

第 2 步. 创立 BLU Acceleration 服务

从仪表板中挑选您创立的运用程序,转到它的概述页面。

单击该页面的 Services 部分中的 Add new service。

图 4.

挑选 BLU Acceleration 作为要增加的服务。

弹出的窗口将显现有关 BLU Acceleration 服务的更多信息。在后续弹出窗口中顺次单击 ADD TO APPLICATION 和 CREATE。

图 5.

第 3 步. 检查 BLU Acceleration 服务(可选)

BLU Acceleration 服务在其 Web 操控台中供给了一些数据剖析东西,包括加载和查询数据、运用 R 或 Excel® 来剖析数据,运用 Cognos 来陈述数据,以及向您供给常见职业特定用例的职业模型。这个令人形象深化的可用东西集值得您去探究,以便为将来的项目做准备。

在运用程序概述页面中,挑选 BLUAcceleration 服务。

图 6.

在接下来的页面上,单击 Launch the console。

这会翻开一个新窗口,其间包括 BLU Data Warehouse Web 操控台。您能够在这个操控台中做许多作业,包括将数据文件上传到数据库,以及用 R 剖析数据。

图 7.

第 4 步. 将数据上传到 BLU Acceleration(可选)

咱们的样例数据集现已坐落 BLU Acceleration 数据仓库中。可是,您也能够运用自己的数据。要想将数据上传到 BLU Acceleration:

  1. 在 BLU Acceleration Web 操控台中,单击 Manage 选项卡,然后挑选 Load Data。
  2. 咱们将加载来自 CSV 文件的数据。挑选 Local File System 作为数据来历,并阅读包括您的数据的文件。
  3. 您需求为该数据创立一张新表。单击 +。
  4. 再次经过阅读寻觅要加载的 CSV 文件。BLU Acceleration 会生成一个 SQL 句子,依据 CSV 文件的内容来创立表。关于咱们的剖析,除了分类列之外,咱们需求加倍增加一切的列。请依据提示修正列类型。
  5. 单击 Run DDL 来运转句子;您会收到查询成功运转的告诉。单击 OK。然后单击 Cancel。
  6. 挑选刚刚创立的表。
  7. 挑选默许选项 Append new data into the table,然后单击 Load Now。体系会加载数据。

第 5 步. 下载代码

假如没有下载代码,请 获取 JazzHub 中的代码。

挑选 EDIT CODE。登录后,您会看到要下载的代码。

单击 File > Export > Zip 将代码下载到您的计算机。

第 6 步. 了解代码

样例运用程序包括以下组件:

  • FileLocationContextListener 在上创立了用于文件上传的文件夹。
  • 假如用户挑选运用数据库来上传针对模型的训练数据集,那么能够运用输入的详细信息将数据上传到 Instances 目标,运用这些数据作为 TrainingSet。然后,能够运用这个 TrainingSet 来创立 NaiveBayes 模型。或许,运用默许的数据库表来创立模型。
  • 用户能够上传一个 CSV 文件,用它作为一个 Testing 集。该文件被上传到从前在上创立的文件夹中。
  • Weka 将 Attribute-Relation File Format (ARFF) 文件作为一种根本的文件格局进行处理,该文件包括所需的特点和数据集。CSV2ARFF.java 是一个独自的实用程序,它能够将 CSV 文件转换成存储在上的相同文件夹中的 ARFF 文件。
  • 然后,将 ARFF 文件加载到 Instances 目标中,运用该文件作为一个 TestingSet。
  • 关于 TestingSet 中的一切实例,能够运用 NaiveBayes 模型将输出分类为 Churn 或 Not Churn 类。
  • 然后,在用户界面上显现相应的输出。

第 7 步. 生成 WAR 文件

要想将代码推送到 BlueMix 中,需求生成一个 WAR 文件。运用 Eclipse 能够轻松完结这一操作。为了避免您无法生成 WAR 文件,这儿现已包括了该文件。

挑选 File > Import。在对话窗口中,挑选 Existing Projects into Workspace,然后挑选 Next。

在接下来的对话窗口中,阅读从 JazzHub 下载的文件。

图 8.

保存一切的默许值即可。然后挑选 Finish。现在,您现已将项目增加到了您的 Eclipse Client。

要想将项目导出为一个 WAR 文件,请右键单击 Project Explorer 中的项目。然后挑选 Export > War File。将 WAR 文件独自保存到一个目录中。

图 9.

第 8 步. 布置运用程序

翻开一个终端并转到 WAR 文件的目录。最好是将 WAR 文件放入它自己的目录中。

运转 cf push 指令。供给运用程序称号、所需的内存、实例,以及抵达 WAR 文件的途径。关于这个运用程序,咱们供给 512 MB 的内存和一个实例:cf push bludemo -m 512m -p BLUDemo.war 。

当上传运用程序时,呈现的详细信息会指示正在产生的作业。大约一分钟半今后,运用程序就能够正常运转了。

假如想要更改运用程序,可重复此流程。生成新的 WAR 文件后,运转相同的指令将它推送到 BlueMix。

备选进程:从 JazzHub 布置运用程序

不需求遵从前面的大部分进程,您就能够创立服务并经过 JazzHub 布置运用程序。

在自己的作业区中具有代码之后(第 5 步),修正称号为 manifest.yml 的文件。

将 name 和 host 修正为运用程序的称号和主机。这些值应该是相同的。文件会主动被保存。

单击 Deploy,然后 JazzHub 会尝试着依据 manifest.yml 文件来布置运用程序。在进行布置的时分,JazzHub 会恳求您供给凭据。完结第 4 步来上传训练数据。然后,演示运用程序将会开端运转。

完毕语

现在,您现已了解了 BLU Acceleration 怎么在 Codename: BlueMix 上以服务的办法供给了数据仓库和剖析,以及开发人员怎么运用云中供给的非常快的 IBM BLU 技术来开发和布置重型运用程序。这便是云中更快速、更简略的数据发掘办法。

咱们感兴趣的内容
小同伴独爱的新闻
小同伴还重视了以下信息
小同伴重视的焦点

小同伴都在重视的抢手词

新服 缤纷活动 帆海世纪 芈月传 暗黑道具 萌乐网 苹果发布会 最新谍照 三国令 剑雨江湖 怎样修炼战骑 页游 怎样修炼同伴 木甲国际 仙侠道2 推黑科技 页游形式 武圣试炼场 街机玩法 蓝月传奇 个人BOSS玩法 哥们网 九阴绝学 仗剑出鞘 全新形式 范伟打天下 全新元神玩法 七大神兵简介 新手攻略 跑腿使命 门派五行 城战礼包 页游界 泥石流 傅园慧 经典网页游戏 耐玩 盘点 玉石攻略 提高人物 大黑 实装特点 神兵攻略 闻名莽荒 莽荒纪 手持神兵 土豪梦 万世 开学清单 财富赚不断 天书国际 大黑游戏 资源战场 ppwan 天问 激战 全国大战 雄霸一方 新增宠物技术 肯定小能手 花千骨 三尾章鱼 风色轨道 双枪手 弑之神 缤纷好礼 惊喜六重连 帮会 中秋福利 克己月饼 九阴真经 玩家 五周年留念 留念银币 名动三界 新服资料片 画江山 勇战妖魔 邪恶势力 上古降魔 老司机玩法 坐骑揭秘 黑科技 竞技场攻略 铁血皇城 披风玩法 书剑恩仇录 配备强化攻略 户外BOSS玩法 全网曝光 赤壁传说 半回合制国 ACT 奇珍商城 热血战歌 传奇瑰宝抽奖 翻开办法 门徒 门徒获取玩法 三大萌宠简介