常见的数据处理软件有Apache Hive、SPSS、Excel、Apache Spark、 Jaspersoft BI 套件。
1、Apache Hive
Hive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。
2、SPSS
SPSS for Windows软件分为若干功能模块。可以根据自己的分析需要和计算机的实际配置情况灵活选择。SPSS针对初学者、熟练者及精通者都比较适用。并且很多群体只需要掌握简单的操作分析,大多青睐于SPSS。
3、Excel
Excel 可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel还提供高级查询功能,最操作的简单,其中自动汇总功能简单灵活。高级数学计算时,Excel也只用一两个函数轻松搞定。
4、Apache Spark
Apache Spark是Hadoop开源生态系统的新成员。它提供了一个比Hive更快的查询引擎,因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。同时,它还用于事件流处理、实时查询和机器学习等方面。
5、 Jaspersoft BI 套件
Jaspersoft包是一个通过数据库列生成报表的开源软件。行业领导者发现Jaspersoft软件是一流的, 许多企业已经使用它来将SQL表转化为pdf,,这使每个人都可以在会议上对其进行审议。另外,JasperReports提供了一个连接配置单元来替代HBase。
数据分析与处理方法:
采集
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。
并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的大量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等。
而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些大量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。
也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
Excel全称是Microsoft Excel,是美国微软公司旗下所开发的一款电子表格制作软件。
Excel软件可以进行批量文字数据处理,界面美观大方,在日常工作中经常需要使用,是现今办公人士必备的业务处理技能。Excel软件和微软的其他软件一样,可以多软件搭配组合使用,支持导入、插入Word和PowerPoint软件,在办公中起到十分便捷的作用。
excel软件的优势
1、功能全面:几乎可以处理各种数据。操作方便:菜单、窗口、对话框、工具栏。
2、丰富的数据处理函数、丰富的绘制图表功能:自动创建各种统计图表、丰富的自动化功能:自动更正、自动排序、自动筛选等。
3、运算快速准确、方便的数据交换能力、新增的Web工具。
常用的办公软件有:
1.Word
MicrosoftOfficeWord是微软公司的一个文字处理器应用程序。Word给用户提供了用于创建专业而优雅的文档工具,帮助用户节省时间,并得到优雅美观的结果。一直以来,MicrosoftOfficeWord都是最流行的文字处理程序。
作为Office套件的核心程序,Word提供了许多易于使用的文档创建工具,同时也提供了丰富的功能集供创建复杂的文档使用。哪怕只使用Word应用一点文本格式化操作或图片处理,也可以使简单的文档变得比只使用纯文本更具吸引力。
2.Excel
MicrosoftExcel是Microsoft为使用Windows和AppleMacintosh操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。
与其他办公室应用程序一样,它包括联合的服务器和基于互联网的服务。从2007版的Office被称为“OfficeSystem”而不叫“OfficeSuite”,反映出它们包括服务器的事实。
3.Outlook
MicrosoftOfficeOutlook是微软办公软件套装的组件之一,它对Windows自带的Outlookexpress的功能进行了扩充。Outlook的功能很多,可以用它来收发电子邮件、管理联系人信息、记日记、安排日程、分配任务。
Outlook是Microsoft的主打邮件传输和协作客户端产品。Outlook还提供与InternetExplorer5.5的交互和集成。电子邮件、日历和联系人管理等功能的完全集成使得Outlook成为许多商业用户眼中完美的客户端。
4.Powerpoint
MicrosoftOfficePowerPoint,是微软公司的演示文稿软件。用户可以在投影仪或者计算机上进行演示,也可以将演示文稿打印出来,制作成胶片,以便应用到更广泛的领域中。
利用MicrosoftOfficePowerPoint不仅可以创建演示文稿,还可以在互联网上召开面对面会议、远程会议或在网上给观众展示演示文稿。MicrosoftOfficePowerPoint做出来的东西叫演示文稿,其格式后缀名为:ppt、pptx;或者也可以保存为:pdf、图片格式等。
5.Access
MicrosoftOfficeAccess是微软把数据库引擎的图形用户界面和软件开发工具结合在一起的一个数据库管理系统。Access的用途体现在两个方面:
(1).用来进行数据分析:access有强大的数据处理、统计分析能力,利用access的查询功能,可以方便地进行各类汇总、平均等统计。并可灵活设置统计的条件。
(2).用来开发软件:access用来开发软件,比如生产管理、销售管理、库存管理等各类企业管理软件,其最大的优点是:易学!非计算机专业的人员,也能学会。低成本地满足了那些从事企业管理工作的人员的管理需要,通过软件来规范同事、下属的行为,推行其管理思想。