有关大数据的计算机信息处理论文
计算机在进行数据处理之前,首先需要进行数据收集,当收集到有效的数据之后,才能对这些收集而来的大量数据进行各种操作。下面是小编给大家推荐的有关大数据的计算机信息处理论文,希望大家喜欢!
有关大数据的计算机信息处理论文篇一
《计算机软件技术在大数据时代的应用》
摘要:大数据的爆炸式增长在大容量、多样性和高增速方面,全面考验着现代企业的数据处理和分析能力;同时,也为企业带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。对企业而言,能够从大数据中获得全新价值的消息是令人振奋的。然而,如何从大数据中发掘出“真金白银”则是一个现实的挑战。这就要求采用一套全新的、对企业决策具有深远影响的解决方案。
关键词:计算机 大数据时代 容量 准确 价值 影响 方案
1 概述
自从计算机出现以后,传统的计算工作已经逐步被淘汰出去,为了在新的竞争与挑战中取得胜利,许多网络公司开始致力于数据存储与数据库的研究,为互联网用户提供各种服务。随着云时代的来临,大数据已经开始被人们广泛关注。一般来讲,大数据指的是这样的一种现象:互联网在不断运营过程中逐步壮大,产生的数据越来越多,甚至已经达到了10亿T。大数据时代的到来给计算机信息处理技术带来了更多的机遇和挑战,随着科技的发展,计算机信息处理技术一定会越来越完善,为我们提供更大的方便。
大数据是IT行业在云计算和物联网之后的又一次技术变革,在企业的管理、国家的治理和人们的生活方式等领域都造成了巨大的影响。大数据将网民与消费的界限和企业之间的界限变得模糊,在这里,数据才是最核心的资产,对于企业的运营模式、组织结构以及文化塑造中起着很大的作用。所有的企业在大数据时代都将面对战略、组织、文化、公共关系和人才培养等许多方面的挑战,但是也会迎来很大的机遇,因为只是作为一种共享的公共网络资源,其层次化和商业化不但会为其自身发展带来新的契机,而且良好的服务品质更会让其充分具有独创性和专用性的鲜明特点。所以,知识层次化和商业化势必会开启知识创造的崭新时代。可见,这是一个竞争与机遇并存的时代。
2 大数据时代的数据整合应用
自从2013年,大数据应用带来令人瞩目的成绩,不仅国内外的产业界与科技界,还有各国政府部门都在积极布局、制定战略规划。更多的机构和企业都准备好了迎接大数据时代的到来,大数据的内涵应是数据的资产化和服务化,而挖掘数据的内在价值是研究大数据技术的最终目标。在应用数据快速增长的背景下,为了降低成本获得更好的能效,越来越趋向专用化的系统架构和数据处理技术逐渐摆脱传统的通用技术体系。如何解决“通用”和“专用”体系和技术的取舍,以及如何解决数据资产化和价值挖掘问题。
企业数据的应用内容涵盖数据获取与清理、传输、存储、计算、挖掘、展现、开发平台与应用市场等方面,覆盖了数据生产的全生命周期。除了Hadoop版本2.0系统YARN,以及Spark等新型系统架构介绍外,还将探讨研究流式计算(Storm,Samza,Puma,S4等)、实时计算(Dremel,Impala,Drill)、图计算(Pregel,Hama,Graphlab)、NoSQL、NewSQL和BigSQL等的最新进展。在大数据时代,借力计算机智能(MI)技术,通过更透明、更可用的数据,企业可以释放更多蕴含在数据中的价值。实时、有效的一线质量数据可以更好地帮助企业提高产品品质、降低生产成本。企业领导者也可根据真实可靠的数据制订正确战略经营决策,让企业真正实现高度的计算机智能决策办公,下面我们从通信和商业运营两个方面进行阐述。
2.1 通信行业:XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
2.2 商业运营:辛辛那提动物园使用了Cognos,为iPad提供了单一视图查看管理即时访问的游客和商务信息的服务。借此,动物园可以获得新的收入来源和提高营收,并根据这些信息及时调整营销政策。数据收集和分析工具能够帮助银行设立最佳网点,确定最好的网点位置,帮助这个银行更好地运作业务,推动业务的成长。
3 企业信息解决方案在大数据时代的应用
企业信息管理软件广泛应用于解决欺诈侦测、雇员流动、客户获取与维持、网络销售、市场细分、风险分析、亲和性分析、客户满意度、破产预测和投资组合分析等多样化问题。根据大数据时代的企业挖掘的特征,提出了数据挖掘的SEMMA方法论――在SAS/EM环境中,数据挖掘过程被划分为Sample、Explore、Modify、Model、Assess这五个阶段,简记为SEMMA:
3.1 Sample 抽取一些代表性的样本数据集(通常为训练集、验证集和测试集)。样本容量的选择标准为:包含足够的重要信息,同时也要便于分析操作。该步骤涉及的处理工具为:数据导入、合并、粘贴、过滤以及统计抽样方法。
3.2 Explore 通过考察关联性、趋势性以及异常值的方式来探索数据,增进对于数据的认识。该步骤涉及的工具为:统计报告、视图探索、变量选择以及变量聚类等方法。
3.3 Modify 以模型选择为目标,通过创建、选择以及转换变量的方式来修改数据集。该步骤涉及工具为:变量转换、缺失处理、重新编码以及数据分箱等。
3.4 Model 为了获得可靠的预测结果,我们需要借助于分析工具来训练统计模型或者机器学习模型。该步骤涉及技术为:线性及逻辑回归、决策树、神经网络、偏最小二乘法、LARS及LASSO、K近邻法以及其他用户(包括非SAS用户)的模型算法。
3.5 Assess 评估数据挖掘结果的有效性和可靠性。涉及技术为:比较模型及计算新的拟合统计量、临界分析、决策支持、报告生成、评分代码管理等。数据挖掘者可能不会使用全部SEMMA分析步骤。然而,在获得满意结果之前,可能需要多次重复其中部分或者全部步骤。
在完成SEMMA步骤后,可将从优选模型中获取的评分公式应用于(可能不含目标变量的)新数据。将优选公式应用于新数据,这是大多数数据挖掘问题的目标。此外,先进的可视化工具使得用户能在多维直方图中快速、轻松地查阅大量数据并以图形化方式比较模拟结果。SAS/EM包括了一些非同寻常的工具,比如:能用来产生数据挖掘流程图的完整评分代码(SAS、C以及Java代码)的工具,以及交换式进行新数据评分计算和考察执行结果的工具。
如果您将优选模型注册进入SAS元数据服务器,便可以让SAS/EG和SAS/DI Studio的用户分享您的模型,从而将优选模型的评分代码整合进入工作报告和生产流程之中。SAS模型管理系统,通过提供了开发、测试和生产系列环境的项目管理结构,进一步补充了数据挖掘过程,实现了与SAS/EM的无缝联接。
在SAS/EM环境中,您可以从SEMMA工具栏上拖放节点进入工作区的工艺流程图中,这种流程图驱动着整个数据挖掘过程。SAS/EM的图形用户界面(GUI)是按照这样的思路来设计的:一方面,掌握少量统计知识的商务分析者可以浏览数据挖掘过程的技术方法;另一方面,具备数量分析技术的专家可以用微调方式深入探索每一个分析节点。
4 结束语
在近十年时间里,数据采集、存储和数据分析技术飞速发展,大大降低了数据储存和处理的成本,一个大数据时代逐渐展现在我们的面前。大数据革新性地将海量数据处理变为可能,并且大幅降低了成本,使得越来越多跨专业学科的人投入到大数据的开发应用中来。
参考文献:
[1]薛志文.浅析计算机网络技术及其发展趋势[J].信息与电脑,2009.
[2]张帆,朱国仲.计算机网络技术发展综述[J].光盘技术,2007.
[3]孙雅珍.计算机网络技术及其应用[J].东北水利水电,1994.
[4]史萍.计算机网络技术的发展及展望[J].五邑大学学报,1999.
[5]桑新民.步入信息时代的学习理论与实践[M].中央广播大学出版社,2000.
[6]张浩,郭灿.数据可视化技术应用趋势与分类研究[J].软件导刊.
[7]王丹.数字城市与城市地理信息产业化――机遇与挑战[J].遥感信息,2000(02).
[8]杨凤霞.浅析Excel 2000对数据的安全管理[J].湖北商业高等专科学校学报,2001(01).