IBM认证 百分网手机站

IBM Watson的基本原理和大数据分析

时间:2017-06-21 14:41:09 IBM认证 我要投稿

IBM Watson的基本原理和大数据分析

  作为IT业界的顶级公司,IBM通过其认证确定了产品专家的标准,可以说IBM在业界的声望和IBM产品的市场占有率提升了其认证工程师的含金量。下面是小编收集的关于IBM Watson的基本原理和大数据分析,希望大家认真阅读!

  第一个服务器是演示服务器。这里是你需要编写Java程序来支持提问和回答的逻辑与思考过程的地方,我们可以称其为查询面板。你会在查询面板部署GUI,用来输入你的问题、处理问题以及寻找答案。这也是你安装OpenNLP的地方。OpenNLP是能“理解”写入查询面板的问题的应用。问题的“答案”现在就能从NFS驱动器里搜索。查询面板是一个图形用户界面,用来输入问题和显示答案。在这个界面之下它所做的是通过将问题传递给一个安装在此计算机上的叫做OpenNLP的应用来尝试“理解”这个问题。一旦问题被理解了,它就会检索答案。在输入一个问题之前,你需要告诉查询面板从哪里来寻找答案。我们将会引导查询面板从一个网络文件系统驱动器中寻找答案。这个驱动器包含了来自其它服务器的从非结构化数据到结构化数据的转换结果。在我们的这个原型体系中,所有被处理的数据都会被存储在共享的NFS驱动器里。

  这是演示服务器的基本组件: Linux 64位; 最小8GB内存; 兼容64位CPU; 50GB硬盘空间; Java SDK; 查询面板; OpenNLP; 可以访问NFS驱动器; 已联网,可以访问内网和互联网。

  业务逻辑服务器就是你的“思考”或者说分析计算机。对这个服务器里,你需要安装Java SDK、Eclipse和UIMA SDK。创建UIMA应用可以将非结构化数据转换为结构化数据,这些应用例如:类型描述;注释器;分析引擎描述符;通用分析结构(CAS);一些Java类;CAS数据处理控件。(这个服务器里还有)UIMA将要处理的以非结构化数据形式存在的内容。它的基本工作方式是——我们会用UIMA组件来从一个非结构化数据池中获得数据,这是通过编写基于Java-UIMA的应用来设定我们需要的关键词。这些UIMA组件会采集关键词并将其放入CAS或者说通用分析结构。这些采集完的项就是我们希望找到的基于某种条件的东西。一旦到了CAS,我们编写好的CAS处理控件就会将数据写为一个结构化的形式,例如数据库、CSV平面文件或者是XML。你也将在此处创建你的UIMA应用,以建立你的采集处理引擎。这些应用是:类型描述;注释器;分析引擎描述符;通用分析结构(CAS);一些Java类;CAS数据处理控件。

  这些是业务逻辑服务器的组件:Linux 64位;最小8GB内存;兼容64位CPU;50GB硬盘空间;Java SDK;UIMA SDK;使用了UIMA的一些Java程序;联网的共享的NFS驱动器;网络连接,可访问内网和英特网。

  第三台机器是文件和数据库服务器。在这个地方你将存储被其它系统需要的.文件,这里也是输出的文件被存放的地方。你需要在这里安装一个能被其它系统读取和写入的NFS驱动器。

  这是一个包含Hadoop的文件与数据库服务器的典型配置:Linux 64位;最小16GB内存;兼容64位CPU;120GB硬盘空间;Java SDK;IBM InfoSphere BigInsights快速入门版;DB2数据库(或其它任何数据库);Wget Utility;安装好的NFS驱动器;已联网,可以访问内网和互联网。

  总结:最终的服务器配置,包括了演示服务器、业务逻辑服务器以及数据库(文件)服务器(Hadoop系统)的组件。在云环境中,也许可以只创建两个服务器,而将业务逻辑和数据库服务器组合到一个里。查询面板是你要输入你的问题的地方,这里也是得到答案的地方。它所做的事情是,接收问题并将问题的处理交接给一个人工智能应用,例如OpenNLP或OpenCyc,来理解这个问题。 在这个原型中,我们使用了OpenNLP。OpenNLP中有内建的程序,它们可以分析问题的语法,对问题分块以及对问题中的词语进行其它形式的处理和分类。一旦理解了问题,它就会调用一个程序来寻找答案。一个将非结构化数据转换为结构化数据的应用(UIMA)已经事先将答案所在的数据进行了处理。然后查询面板基于OpenNLP对问题的理解来从这些数据集中寻找答案。一旦问题被读取后,答案会被显示回查询面板。