当时方位: 主页 > Linux学院 > 程序设计 > 软件工程 > 运用KNIME作业流引擎让数据剖析变得更灵敏

运用KNIME作业流引擎让数据剖析变得更灵敏

2014-08-08 15:43 来历:IBM 作者:Scott Snyder 人气指数: 我要谈论

在 developerWorks 文章 剖析灵敏国际中的数据 中,我解说了数据剖析变得灵敏需求满意的三个首要特征:

  • 剖析组件需求模块化,以便在许多不同的景象中运用它们。
  • 要处理的数据需求看起来像一个矩形表,以便最大极限地下降组件之间的数据格局不兼容性。
  • 各个剖析组件需求可以运用很少的编程作业组合在一起,构成一个完好的剖析。

作业流东西(比方用于数据发掘、生物信息学和事务剖析的东西)需求满意这些要求。与单个剖析软件比较,完结数据剖析的作业流引擎供给了许多优势。

运转一个作业流不是单个整体性的操作。每个核算单元(一般被称为节点) 可以完好剖析独登时运转。专一需求取得的信息是输入数据的来历。输入数据可以是经过测验获取的实在数据,或许用于验证节点逻辑的模仿数据。可以以一种表格 的办法对处理的数据进行检查,然后再将数据传递给下一个节点来验证它是否已被正确处理。也可以选用图形化的办法对相同的数据进行验证。

数据来历与数据处理是独立存在的。读取器节点 将数据内部化到作业流中。将数据读入一个节点中后,会显现一个与来历独立的表。因而,即便数据来历已更改,作业流的剖析部分也不会发作更改。这种安排有助 于重用和更灵敏地运用某个特定的作业流,由于外部数据的格局(一个 CSV、JSON、XML 或文本格局的文件)或许发作更改,而此更改不会影响底层剖析逻辑。

由于数据的获取和检查是作业流引擎的职责,所以可以处理十分大的数据集,作业流的作者无需忧虑内存办理。

假如需求自界说编程,可以将该操作阻隔到一个特定的节点或多个节点中。编程细节可对终究用户躲藏,他们仅需求知道该节点履行的剖析类型。终究用户不需求忧虑怎么完结剖析的详细细节。

创立各个作业流后,可以将它们封装在一个元节点 中,使它们看起来相似于可嵌入到更大的作业流中的节点。

运用 KNIME 完结灵敏剖析

KNIME 是一个开源作业流引擎和东西,十分合适此类型的数据剖析。它安装了 1000 多个预界说的节点,受许多外部剖析东西包的支撑,包括商用和开源的东西包。KNIME 可经过下载取得,可将它用在 Microsoft® Windows®、Mac® 和 Linux® 上。您可以获取教程来协助学习 KNIME,它的理念十分简略。您以从节点存储库中拖出各个节点并放在画布上。要指明数据流,可以制作一条从一个节点的输入端口指向该流中下移节点的导入 节点的箭头。

示例 Apache 拜访日志剖析

例如,您可以运用 KNIME 剖析,在一个承受传入 HTTP 恳求的 Apache HTTP Server® 的传统三层架构的操作中,剖析资源运用状况。这些恳求会被路由到运用节点,比方 IBM® WebSphere® Application Server,或许路由到其他可用于处理动态恳求的中间层。

要了解负载对资源运用状况的影响,需求依据不断宣布的 HTTP 恳求,将外部负载与运用或数据库层运用的资源相相关。为此,您需求:

  • 剖析 Apache 拜访日志文件。
  • 规范化来自日志文件的时刻戳,以便要点重视某个特定时刻段。
  • 确认一个时刻区间。
  • 提取在这些时刻内恳求的特定的 URL。

下载 示例 KNIME 作业流,学习怎么在 KNIME 内完结此剖析,以及怎么运用相似作业流从其他类型的日志文件(比方 CPU 日志、数据库资源日志或废物搜集日志)中提取资源信息,运用这些信息来履行这种类型的相关。

要导入示例作业流,可以将它下载到您的文件体系中,挑选 File>Import KNIME workflow... 并依照导入导游来将它导入到 KNIME 中。

检查导入的作业流(如图 1 所示),您可以看到,该作业流首先是一个 Weblog Reader,可以经过配备它来读取 Apache 拜访日志的格局。

图 1. 处理拜访日志的 KNIME 作业流

点击这儿给我发消息

双击该节点,或许右键单击并挑选 Configure...,调出图 2 中所示的配备对话框。在这儿,您可以指定想要剖析的特定日志、该文件中的文本的言语环境、时刻戳的日期和时刻格局,以及日志文件中每一行的整体格局。日期和时刻格局由 Java SimpleDateFormat 界说的。请参阅 JavaDoc,以便了解详细的格局选项。日支行格局是在 Apache 文档中界说的,十分合适来自 Apache 配备的格局。

图 2. Weblog Reader 配备对话框

运用KNIME作业流引擎让数据剖析变得更灵敏

在配备节点后,节点下的红灯会由赤色变为黄色运用KNIME作业流引擎让数据剖析变得更灵敏,这表明节点已准备好运转,但没有将它与任何数据相相关。

读取器节点可经过多种办法与整个作业流独登时运转,这些办法与 Eclipse 接口相对应:

  • 运用键盘上的 F7 键。
  • 单击菜单中的 Node > Execute。
  • 单击窗口顶部按钮栏中的运转按钮 由红变黄的图标

假如成功运转,黄灯会变为绿色( 运转按钮图标),这表明该节点已具有与它相相关的日志数据。要检查日志数据,可右键单击该节点并挑选 Weblog table。此操作会生成一个相似电子表格的表,其间包括已剖析的日志文件内容。此表可翻滚,可用来验证日志文件是否已正确解说,如图 3 所示。

图 3. 已剖析的拜访日志信息

由黄变绿的图标

跟着输入数据在作业流中不断被处理和转化,运用此办法可逐一处理节点,验证输入数据的解说。请参阅图 1 或您下载的示例作业流,您可以看到,关于第一个紫色矩形中的节点,开始剖析的数据已得到了附加信息的增强:

  • 恳求的来源国家,依据包括的 IP 地址
  • 详细的恳求 URI,已从完好的 GET 恳求中分离出来

要 比较来自多个日志文件的时刻戳,则需求相关各个计时。保管每个的每个机器上的时钟或许稍有不同,也或许坐落不同的时区中。这些过错匹配使得按时刻戳 直接比较变得很困难。要处理此问题,可依据某个界说为测验起点的时刻点来核算经过时刻。运用此办法,您可以调理每个日志文件的时刻基准,使不依据时钟时 间,而依据测验运转时刻(经过时刻)来履行相关变得更简略。由于解说的时刻戳在内部存储为一个日期/时刻目标,所以很简略运用一个时差 节点确认两个日期/时刻目标之间的时差。

时 差节点的配备对话框如图 4 中所示。时差可从一个日期和时刻列核算,经过从作业流的履行时刻、另一个相同长度的列中减去该时刻,或许减去一个固定的日期和时刻来核算该时刻。也可以指 定时差的粒度。此作业流以秒为单位指定测验的详细日期和时刻。此操作得到一个包括所经过的时刻的新列。

图 4. 时差节点的配备对话框

运用KNIME作业流引擎让数据剖析变得更灵敏

第二个紫色矩形中的下一批节点用于铲除数据表,使其仅包括输出中受重视的特定行和列。选用这种核算时差的办法,有必要将 time diff 列乘以 -1 来将这些值转化为经过时刻。

在此示例中,终究一个节点将这个过滤后的表写入到某个 CSV 文件中,它可在该文件中导入一个电子表格,或许运用一个绘图东西包来描绘。可是,您可以在 KNIME 中对过滤的内容履行更杂乱的剖析,然后将它传递给另一个作业流。

运用作业流的优势

可以选用编程办法履行这种类型的剖析,但作业流供给了多种优势:

  • 程序的流程很直观,简略了解。您不需求了解编程言语或供给各种功用所需的库的 API,比方国家查找或时区核算。
  • weblog 读取器可重用于许多类型的日志,可经过配备该读取器来读取许多日期、时刻和日志格局。
  • 您可增量地验证对已剖析数据的处理。
  • 您可对此作业流稍作修正,运用相似办法处理其他类型的日志文件。

怎么剖析资源日志

KNIME 等作业流引擎之所以成为有助于选用灵敏办法剖析测验数据的要害组件,灵敏性是最大的原因。要将来自 access.log 剖析的数据与运用 SYSSTAT 东西(比方 Linux 渠道上的 sar 或来自 Windows Performance Monitor 的东西)获取的 CPU 数据相相关,可运用相似的作业流在 KNIME 中剖析体系衡量目标。

由于可以将衡量目标从这些东西导出到 CSV 文件中,所以对本文中描绘的作业流的首要更改是将 Weblog Reader 替换为一个 CSV Reader,并运用 String to Date/Time 节点显式地将时刻戳转化为日期和时刻,由于 CSV Reader 不会像 Weblog Reader 那样主动履行此操作。该作业流的剩下部分根本相同。终究输出的 CSV 文件可保存并运用外部绘图东西来描绘,以检查恳求类型与资源运用率之间的联络,或许在 KNIME 中经过许多现有的描绘节点来制作。

完毕语

灵敏 是一个形容词,表明可以更快、更轻松地操作,可以快速地考虑和了解。运用灵敏开发办法更快更灵敏地编写软件时,您需求相同灵敏地了解怎么履行和扩展此软件。

KNIME 等作业流引擎解放了测验安排,当产品在每次迭代中不断演化时,他们无需编写和重写剖析脚本。KNIME 让测验人员无需机械地运转数据剖析,使他们可以解说这些剖析的成果,而无需把握深化的编程技术。

其他相关的新闻

咱们感兴趣的内容
小同伴独爱的新闻
小同伴还重视了以下信息
小同伴重视的焦点

小同伴都在重视的抢手词

新服 缤纷活动 帆海世纪 芈月传 暗黑道具 萌乐网 苹果发布会 最新谍照 三国令 剑雨江湖 怎样修炼战骑 页游 怎样修炼同伴 木甲国际 仙侠道2 推黑科技 页游形式 武圣试炼场 街机玩法 蓝月传奇 个人BOSS玩法 哥们网 九阴绝学 仗剑出鞘 全新形式 范伟打天下 全新元神玩法 七大神兵简介 新手攻略 跑腿使命 门派五行 城战礼包 页游界 泥石流 傅园慧 经典网页游戏 耐玩 盘点 玉石攻略 提高人物 大黑 实装特点 神兵攻略 闻名莽荒 莽荒纪 手持神兵 土豪梦 万世 开学清单 财富赚不断 天书国际 大黑游戏 资源战场 ppwan 天问 激战 全国大战 雄霸一方 新增宠物技术 肯定小能手 花千骨 三尾章鱼 风色轨道 双枪手 弑之神 缤纷好礼 惊喜六重连 帮会 中秋福利 克己月饼 九阴真经 玩家 五周年留念 留念银币 名动三界 新服资料片 画江山 勇战妖魔 邪恶势力 上古降魔 老司机玩法 坐骑揭秘 黑科技 竞技场攻略 铁血皇城 披风玩法 书剑恩仇录 配备强化攻略 户外BOSS玩法 全网曝光 赤壁传说 半回合制国 ACT 奇珍商城 热血战歌 传奇瑰宝抽奖 打开办法 门徒 门徒获取玩法 三大萌宠简介