其时方位: 主页 > Linux学院 > 程序规划 > 软件工程 > Watson一种功用强壮的技术,适用于触及自然言语的处理方案

Watson一种功用强壮的技术,适用于触及自然言语的处理方案

2014-08-08 15:48 来历:IBM 作者:Jim Sharpe 人气指数: 我要谈论
Watson 的许多特性协助它在 Jeopardy!节目中赢得了成功,一起也使它特别适用于触及许多自然言语的一般使命。许多要素 让自然言语的了解和推理变得很困难。Watson 处理了这些问题,因而它供给了一种全新的办法,使核算机在咱们的日子中能够发挥更大的作用。本文介绍了一种使得 Watson 能够主动感知相关的非文本上下文的办法。您能够将这些改进看作是为 Watson 赋予了 “眼睛和耳朵”。
 
Watson 的成果在于:
 
    有用地处理非结构化内容,尤其是文本:虽然许多体系都能够让核算机处理自然言语数据,可是大部分体系都停步于各种单词和短语的索引。这种才干当然重要且很有用,但还不足以供给必要的认知才干来解析杂乱的、随意的人类言语。在曩昔,近义词、双关语、嘲讽和其他各种办法的文字游戏都是核算机处理的难点。Watson 霸占了这类言语和其他言语。Watson 能够吸收并有用地处理类型丰厚的言语,从技术文档、研谈论文,到博客文章和 Wikipedia 条目。只是降服一切书面内容并不能处理问题;该体系有必要能够有用地拜访和运用其间所包含的常识。在 Watson 的前期开展阶段,它就证明了自己在这方面的优越性。
    有用地处理海量参考材料 :核算机处理问题的一个优势是其处理速度和处理容量。查找包含数百万条记载的数据库只需一眨眼的功夫。可是,可用信息正在以咱们难以企及的速度添加,并且不断涌现的新趋势(比方 物联网)更是加重了这种景象。核算机现已协助咱们处理了许多与数量有关的问题,并且能够在某些范畴做得更好。例如,医师每天需求记载许多新的医治操作和药物,底子不或许阅览和记住一切具有潜在相关的内容。与处理自然言语内容相似,有用运用海量数据并不只是是将数据放入大型存储池并进行索引。体系有必要经过一些办法来确认数亿条信息中的哪些内容与特定上下文有相关。Watson 供给了有助于完结这一点的技术。
    学习才干:国际并非原封不动。环境在改变,咱们的了解在增强,常识体也在不断累积添加。面临不断改变的问题和日益添加的常识库,处理方案需求经过动态地调整和学习来保护相关性。在这一进程中,能够经过与体系的简略交互来主动处理某些方面的问题,但其他部分则需求专家进行人工辅导和做出判别。Watson 经过简略用户交互进行学习 和改变的才干(与此相对的是程序员需求修正其完结)使技术一直保持相关并不断改进。
    人机交互— 纵观核算机前史,人类用户有必要运用核算机言语与体系进行交互。虽然这种办法关于那些乐意学习并且有才干学习各种新处理方案常识的人很有用,但现在而言,这现已不是专一的挑选。跟着 Watson 的面世,人机交互取得了长足的开展,现在,核算机能够选用人类的言语经过一种常见的办法与人类用户 进行对话。关于核算机科学来说,以相同的办法向或人提出一个问题并取得呼应一直是一项应战。这种愈加人性化的沟通正在变成实际。当与某个人聊地利,您有时需求说明自己的主意。虽然科幻电影里经常出现提出问题并从某个人那里取得回答的场景,但这并不总是核算机的特长。恳求取得回答的才干供给了一种直观、有用的办法来处理多种办法的歧义。人类凭直觉就能够知道怎么运用这种办法,可是,一般核算机无法经过编程完结这种办法。核算机要么会向您供给一个答案,要么不供给答案(或供给一个过错的答案)。在自然言语中,主动地拟定问题并提出后续问题是一种强壮的用户交互办法。 
 
Watson 在 Jeopardy! 节目中取得了有目共睹的成功,之后,它继续完结了一些 改进。内存占用量和功率明显削减,与此一起,功用得到继续增强。可是,虽然 Watson 专门针对自然言语、内容、上下文和交互进行了优化,它依然不能直接处理感觉输入数据。没有感觉界面能够充任 Watson 的眼和耳朵。它只能呼应以文本描绘办法出现的上下文。例如,您不能向 Watson 展现图画,也不能让它解析来自水下麦克风的声响,或向它供给来自心脏监督器的 EKG 波形。 
 
“有意义的”使命
 
要与 Watson 进行交互,需求将感觉数据转化为 Watson 能够了解的办法,比方文本。例如,相关的图片或许是一张医用 X 光相片。放射科医师经过下面的上下文描绘解说这张相片:
 
“右上叶出现几处离散的、不均匀的气腔不透明区,从表象上看,与肺滋润共同。肺部其他软组织显现清楚。无气胸或渗漏状况。心脏巨细和肺血管正常。腋下、肺门、纵隔不存在淋巴结肿大。”
 
核算机很早就能够生成这类描绘。可是,关于其他办法的感觉处理(比方辨认某个声响来自具体哪一种海豚,或许心跳波形表明心跳过速的特定办法)使得咱们能够 主动将可用信息转化为文本办法的描绘上下文。
 
从事 GCS 研讨的 Alex Philp 博士 将这种转化进程描绘为将感觉数据转化为有意义的发问。由于 Watson 并不了解声响,所以它不能直接纳听心律失常的声响,不能辨认它,也无法告知您这是什么,或许这声响对患者意味着什么。可是,假如声响经过处理并转化为描绘性的短语,然后放到问题中或用作问题的上下文,那么 Watson 就能够给出相应地呼应。这种转化进程就创立了有意义的发问。 
 
处理问题前的预处理
 
Watson 能够处理自然言语,这意味着它能够运用巨大的自然言语办法的常识体,并与人类用户进行交互。对 Watson 的增强便是依据这种才干并进行了充分,使它能够接纳更多的相关数据办法。
 
要完结更多办法的用户交互,并将数据转化到依据 Watson 处理方案的运用程序层,咱们要做的第一步便是对非文本办法的数据进行预处理,将其转化为自然言语描绘。
 
许多东西和技术都能够完结这个预处理进程,一些特别有用的特性包含能够处理各种非结构化数据,履行杂乱剖析,并完结低推迟的端到端转化。 
 
InfoSphere Streams
 
InfoSphere Streams 是一种老练的企业级内存流处理渠道,是将感觉数据转化为有意义发问的抱负挑选。InfoSphere Streams 能够处理动态数据。与比较传统的批处理办法不同,移动数据在达届时就当即取得处理,而不是被存储起来,今后再进行操作。InfoSphere Streams 的两大长处是具有超高的功用和资源功率。依据所履行的操作和可用的处理硬件,从接纳到新数据元素到将处理成果进行更新,全体推迟一般都在亚毫秒等级上完结的。
 
InfoSphere Streams 支撑简直一切类型的电子表格数据。它附带了丰厚的剖析东西,并且很简略经过自界说操作符进行扩展。它具有极好的可扩展性和高效的核算才干。履行相同使命所需的硬件也要比同类技术少许多。
 
最终,它还供给了一个归纳性的依据 Eclipse 的开发环境,能够经过 Quick Start 版别 免费用于非生产用处。
 
经过运用 InfoSphere Streams,您能够履行前面描绘的预处理,净化简直任何办法的感觉数据,并将其转化为可被 Watson 运用的办法。实质上,流处理能够运用来自新的或现有的传感器的数据,为 Watson 供给眼睛和耳朵。 
 
人类所扮演的人物不可或缺
 
虽然核算机一直在演化,功用越来越多,也越来越智能,可是人类在运用程序开发和布置进程中依然扮演重要的人物。与许多后台或机器对机器运用程序不同,大部分依据 Watson 的处理方案都是专门针对人机交互而规划的。
 
在开发进程中,人类专家为 Watson 界说了哪些数据应当包含在其信息库房中,并对信息的运用办法进行了调整。Watson 依然十分依靠拓宽练习阶段。在这个进程中,人类专家将重复与它交互,增强抱负的推理途径,去掉不想要的东西,并辨认出需求加入到信息库房的信息源。
 
当处理方案完结布置并投入运用后,用户将经过运用程序供给的界面与之交互。Watson 的一个强项便是能够与用户进行敞开的、继续的对话。Watson 能够记住对话进行到哪个方位,并盯梢一切相关的上下文。这种行为使它能够防止不断从头输入相同信息,然后进步了呼应的精确性。在本文描绘的场景中,可用的感觉信息构成了对话的一部分。例如,假如一名医师针对特定患者与 Watson 交互,感觉体系会主动供给上下文、与患者病历有关的元素和其时健康状况。相关的医用遥测技术包含直接感知的数据,比方心率、血压、发问、血氧饱和度、脑电波形式等等。此外,经过检测潜在的纤细趋势和相关性,流处理体系的实时剖析功用能够完结归纳遥测。
 
经过增强后的 Watson 能够承受来自电子病历体系的直接感觉输入和信息。具有这种才干后,医师就不必明确地描绘病患的具体状况,因而他们能够将精力会集到其他无法运用其时技术完结主动化的作业上。在抱负状况下,临床医师或许经过这种办法描绘问题:“43 床患者呼吸缓慢的原因是什么?”,一切额定的上下文信息将由体系主动供给。Watson 随后将供给一些或许的原因以及与这些原因对应的置信度。
 
现在,医师能够向 Watson 提出包含完好上下文的杂乱问题。可是,这种办法有点不切实际,由于,医师供给的描绘包含一切与患者状况有关的细节,或许长达几页纸,比方:“42 岁男性,不吸烟,心脏条件 […],此前 […] 小时曾服用过 […] 毫克的 [drug_name],现在显现的心搏率 […],RR […],HRV […],BP[…],SpO2 […],体温 […],那么形成其呼吸缓慢的原因是什么” 等等。这种描绘不只繁琐、费时,并且描绘进程也简略犯错。医师会不小心遗失一些内容,或许引述了一个过错的值。此外,一些相关值不能直接从监督器取得,需求由医师进行核算。
 
在未来,核算机体系或许能够拟定比人类更好的决议计划。一些人以为,到那时,核算机或许比咱们更像人类。在此期间,最好的办法是让核算机去做它最拿手的事,比方在海量的信息中检索,给出客观的成果,然后由人对成果做出判别。这种办法之所以有意义,原因有两个:体系还没有精确到能够让用户盲目信赖,做出重要的主张;咱们的日子经验以及大脑联络事物的办法形成了一种不同的解说和推理。人类与机器的推理进程不同但能够互为补充,两者将结为强壮的组合。将更多信息加入到同享上下文将为 Watson 添加感觉输入,然后进一步增强了这种组合。
 
调查成果并从中学习
 
在 Jeopardy! 节目中,每个 查询和呼应 都是自包含的,和参加 Jeopardy! 节目不同,现在大部分针对 Watson 开发的处理方案都会有一个后续操作,比方医治主张,或有关购买产品的主张。将这种操作发生的成果反应给 Watson 为其供给了另一种学习办法。在某些状况下,向 Watson 添加感觉输入能够使它直接调查所给出主张的成果并从中学习。 
 
在某些状况下,与 Watson 对话的上下文仅限于与用户的文本交互。可是,在 Watson 能够直接调查到依据时,对话质量将得到改进。例如,两名医师在急诊室里谈论某个患者。一个医师的脸没有面朝患者,只能靠另一个医师的描绘来了解患者的状况。虽然有第二个在场医师能够供给一些协助,可是也不能像两个医师一起调查患者那样给出相同的医治。将 Watson 看作是第二个医师。关于第一个医师来说,能够向 Watson 寻求文献中有关反常景象的主张是十分名贵的,可是假如 Watson 能够更直接地与上下文树立联络,那么第一个医师将获益更多。
 
经过运用流处理感觉界面,在一起直接了解了病患状况后,医师和 Watson 能够谈论潜在的致病原因和医治办法。医师挑选一种特定的医治手法后(比方,供给必定数量的某种药物),医师和 Watson 都能够当即调查到医治作用。感觉输入一直进行接连的处理,因而预料中的作用和预料以外的作用都会当即取得,可用作进一步的医治,或包含到常识库中以作后用。 
 
示例用例
 
让 Watson 能够运用各种办法的感觉信息将会在许多景象下获益。要使 Watson 具有这种才干,能够选用一些机制(如流处理)来获取和处理数据,并将具体景象转化为文字。简略地说,它包含并解说感知到的特征,并向检测到的内容分配一些描绘性词汇。
 
曩昔几年,由 Excel-Medical 资助的用户组致力于将流剖析法运用到 医疗监控 范畴。该用户组运用 InfoSphere Streams 渠道的独有特性,继续监督和剖析重症病房和急诊室中监督器生成的遥测记载。这一进程运用户组能够每秒接连监督生成的一切电子数据,对数据进行杂乱剖析,找到杂乱的相关联络、纤细的趋势和严峻病况的其他许多前期预兆。
 
这种办法为临床医师供给了切实可行的信息。在处理方案中包含 Watson 将进步供给给医师的信息的质量。在这种场景中,InfoSphere Streams 将对患者进行继续监督,为医师供给每个患者的具体信息。当检测到某个重要事情,医师能够与 Watson 参议,一起结合 Watson 供给的许多信息,以及患者病历供给的信息和其时状况。在恰当的当地进行继续监督,然后,经过主动记载医师针对特定状况而做出的医治进程的成果,体系能够再次从这次医治中学习。
 
在某些状况下,依据 Watson 的处理方案的运用程序层运用了 InfoSphere Streams 继续监督感觉数据,从中找到感兴趣的事情或形式。当检测到值得注意的内容,或接纳到来自某个人类用户的恳求,就会建议与 Watson 的对话。在上下文中,会主动将感觉数据解说为文本。依据场景的性质,或许会履行某个操作,操作成果也会包含到已学习到的常识中,用于剖析未来事情。这种及时的反应增强了(而不是替代)研讨人员进行试验,并在同行论文中发布成果的需求。两种办法都有用,但各有特点。
 
为了展现这种形式的运用广度,考虑一下美国海军会运用这种体系做些什么。经典影片 “猎杀赤色十月” 中的一个要害人物 Jonesy 便是一名声纳专家。在影片中,他检测到一种不寻常的声响,核算机将其解说为 “地震反常”。他想起一篇有关俄罗斯潜艇的新闻,其间说到潜艇在特定途径上高速行驶。经过结合这些数据以及反常驱动配备下某种潜艇原型的常识,这名主人公精确地判别出了其时的实际状况。整个故事都环绕感觉数据与丰厚的常识库进行的。在影片中,由人在感觉数据与常识库之间搭起桥梁。可是,假如 Jonesy 可巧没有读过相关报导怎么办?假如其时是另一个操作员在值勤又会怎样?假如读过相关材料的人并没有处在能够听到反常信号并树立逻辑联络的方位,又会怎样?
 
不难想象,在不久的将来,在相同的场景下,具有感觉才干的 Watson 完全能够主动履行 Jonesy 在电影里边的操作,要害不同在于它能够拜访数百万份文档,精确地调取数据,并履行杂乱的、实时的、具体的声信号剖析。Jonesy 依然在那个方位,可是扮演着更高档别的人物,他与 Watson 进行交互,做出判别并对 Watson 供给的解说进行调整,这些现在只要人类才干做到。 
 
完毕语
 
处理感觉数据是 InfoSphere Streams 的一个常见用处。一般,这包含获取、净化、过滤数据,生成的数据用于剖析和检测。最终生成的信息被发送给体系以进行演示,然后发给用户,或保存起来。要将 InfoSphere Streams 的才干与 Watson 集成在一起,需求向现已检测到的条件分配单词和短语。现在所受的约束是支撑 Watson 的运用程序尚不可用,这些运用程序用于集成额定的上下文。考虑到开发人员和商业社区对 Watson 的欢迎程度,信任这一约束很快就会得到免除。跟着新运用程序的创立,运用感觉输入进行增强的时机也会相应添加。
 
更具应战性的是完结反应循环,这样感觉处理子体系调查到的内容都能够回来到 Watson 库。在其时的 Watson 完结中,将数据摄取到库的进程是一个定时的批处理进程。未来将支撑渐增式更新。其时的处理办法是格式化已生成的信息,并将它们暂时存储到暂存区,直到开端下一个批处理输入周期。这种办法能够在一个略微慢一点的周期内完结反应循环。 
为您引荐: 处理方案 Watson 自然言语
咱们感兴趣的内容
小同伴独爱的新闻
小同伴还重视了以下信息
小同伴重视的焦点

小同伴都在重视的抢手词

新服 缤纷活动 帆海世纪 芈月传 暗黑道具 萌乐网 苹果发布会 最新谍照 三国令 剑雨江湖 怎样修炼战骑 页游 怎样修炼同伴 木甲国际 仙侠道2 推黑科技 页游形式 武圣试炼场 街机玩法 蓝月传奇 个人BOSS玩法 哥们网 九阴绝学 仗剑出鞘 全新形式 范伟打天下 全新元神玩法 七大神兵简介 新手攻略 跑腿使命 门派五行 城战礼包 页游界 泥石流 傅园慧 经典网页游戏 耐玩 盘点 玉石攻略 提高人物 大黑 实装特点 神兵攻略 闻名莽荒 莽荒纪 手持神兵 土豪梦 万世 开学清单 财富赚不断 天书国际 大黑游戏 资源战场 ppwan 天问 激战 全国大战 雄霸一方 新增宠物技术 肯定小能手 花千骨 三尾章鱼 风色轨道 双枪手 弑之神 缤纷好礼 惊喜六重连 帮会 中秋福利 克己月饼 九阴真经 玩家 五周年留念 留念银币 名动三界 新服材料片 画江山 勇战妖魔 邪恶势力 上古降魔 老司机玩法 坐骑揭秘 黑科技 竞技场攻略 铁血皇城 披风玩法 书剑恩仇录 配备强化攻略 户外BOSS玩法 全网曝光 赤壁传说 半回合制国 ACT 奇珍商城 热血战歌 传奇瑰宝抽奖 打开办法 门徒 门徒获取玩法 三大萌宠简介