大数据学术论文
大数据现在只呈现的是一个研究热点,迫切需要一种技术实现大数据精准开发应用。这是小编为大家整理的大数据学术论文,仅供参考!
大数据学术论文篇一
大数据技术初探
摘 要:大数据是继物联网、云计算技术后世界又一热议的信息技术,这种密集型数据爆炸现象的出现,标志着“大数据”时代的到来。文章介绍了大数据的概念,分析阐述了大数据相关技术。
关键词:大数据 数据处理 相关技术
中图分类号:TP334 文献标识码:A 文章编号:1674-098X(2014)02(a)-0048-01
“大数据”是从英语“Big Data”一词翻译而来的,是当前IT界热议和追逐的对象,是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。麦肯锡公司在2011年的报告(Bigdata:the Next FrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。
1 大数据概念
大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。
2 大数据相关技术
2.1 大数据处理通用技术架构
大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。
MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。
2.2 大数据采集
大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。
2.3 大数据分享
目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。
2.4 大数据预处理
数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。
2.5 大数据存储及管理
大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。
2.6 大数据分析及挖掘
大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数据挖掘、模式识别、统计分析、并行处理。
2.7 大数据检索
①数据库实时检索:在数据仓库或者NoSOL等大数据存储平台上,或者多个不同结构的数据存储平台之间快速、实时地查询和检索不同结构的数据。②实时搜索引擎:对互联网上的大量数据和信息进行即时、快速搜索,实现即搜即得的效果。目前各大搜索引擎都在致力于实时搜索的实现。
2.8 大数据可视化
可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户供其分析使用,可通过数据访问接口或商业智能门户实现,通过直观的方式表达出来。可视化与可视分析通过交互可视界面来进行分析、推理和决策;从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对复杂情景的更深层的理解;可供人们检验已有预测,探索未知信息,同时提供快速、可检验、易理解.的评估和更有效的交流手段。可视化是人们理解复杂现象,诊释复杂数据的重要手段和途径。
2.9 大数据应用
①视频搜索;②内容分析;③理赔分析;④社交网络分析;⑤社会分析;⑥社交媒体监控。
2.10 大数据安全
大数据技术的发展,使得人们能够从这些数据中观察和分析社会动态、人群的动作和行为、人群活动规律以及企业的商业秘密。海量数据本身,以及数据中蕴藏的信息涉及到国家、社会、企业和人们的隐私,这对大数据时代的信息安全提出巨大挑战。因此,大数据时代需要发展信息安全技术,确保关系到人们生活方方面面的数据和信息不会被泄漏。
目前除了传统的信息安全方法外,大数据领域还有安全基础设施、安全数据仓库等。此外,一些数据库安全管理软件能够对不同操作系统上运行的异构关系型数据库进行实时监控,一些大型安全数据库能够对与商务数据结合在一起的数据进行预防性的分析,以便识别钓鱼攻击,防止诈骗和阻止黑客入侵。
大数据学术论文篇二
大数据技术研究
摘 要: 大数据技术是继物联网、云计算技术之后IT业界又一次技术浪潮。为了全面深入地理解大数据技术的内涵,从大数据的定义及4V特征、关键技术及主要应用领域等四个方面进行阐述。介绍了大数据的基本概念、特征,总结了大数据的热门应用领域并用典型案例进行佐证,重点剖析了云计算、Hadoop、数据备份等三大核心技术及关键策略,最后对大数据应用中滋生的信息安全隐患提出了相应的对策。
关键词: 大数据; 4V特征; Hadoop; 云计算
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物联网、云计算等新兴技术的迅速发展开启了大数据时代的帷幕。大数据技术是指从各种各样的海量数据中,快速获取有价值信息的技术,大数据的核心问题就是大数据技术。目前所说的“大数据”不仅指数据本身的规模大,还包括采集数据的工具、平台和数据分析系统复杂程度大。大数据的研发目的是发展大数据技术并将其应用到相关领域,解决实际生产、生活中的各种问题,从而推动信息技术健康地可持续发展。
1 大数据的定义及主要特征
与其他新兴学科一样,目前大数据没有一个统一的标准和定义。一般认为:大数据是由大量异构数据组成的数据集合,可以应用合理的数学算法或工具从中找出有价值的信息,并为人们带来经济及社会效益的一门新兴学科。大数据又被称为海量数据、大资料、巨量数据等,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工攫取、管理、处理并整理成为人类所能解读的信息。这些数据来自方方面面,比如社交网络、传感器采集、安防监控视频、购物交易记录等。尽管尚无统一定义,但这些无比庞大的数据被称为大数据。大数据具有如下4V特性[1]:
⑴ 体量Volume,是指数据存储量大,计算量大;
⑵ 多样Variety,是指大数据的异构和多样性,比如数据来源丰富,数据格式包括多种不同形式,如网络日志、音频、视频、图片、地理位置信息等等;
⑶ 价值Value,是指大数据价值密度相对较低,信息海量,但是要挖掘出真正有价值的数据难度较大,浪里淘沙却又弥足珍贵;
⑷ 速度Velocity,是指数据增长速度快,处理速度要求快。
2 大数据技术的应用领域
通过对海量数据进行采集、分析与处理,挖掘出潜藏在数据海洋里的稀疏但却弥足珍贵的信息,大数据技术正在对经济建设、医疗教育、科学研究等领域产生着革命性的影响,其所带来的巨大使用价值正逐渐被各行各业的人们所感知。
2.1 金融领域
大数据的火热应用突出体现在金融业,各大互联网企业(谷歌、阿里巴巴等)纷纷掘金大数据,开创了新的互联网金融模式。目前阿里巴巴的互联网金融做得如火如荼:基金、小额信贷、余额宝和理财保险产品等等,阿里巴巴之所以能够做火金融服务,其主要原因就在于阿里的大数据,阿里巴巴的电商平台存储了大量微小企业客户及数以亿计的个人用户行为信息、交易记录、身份数据等,拥有最好、最全的数据以及最完整的产业链,做P2P及个人小额信贷,具有最大优势[2]。相反,传统商业银行早期就已推出的小额信贷业务,开展得并不十分顺利。
2.2 市场营销
今天的数字化营销与传统市场营销最大的区别就在于精准定位及个性化。如今企业与客户的交流渠道发生了革命性的变化,从过去的电话及邮件,发展到今天的博客、论坛、社交媒体账户等,从这些五花八门的渠道里跟踪客户,将他们的每一次点击、加好友、收藏、转发、分享等行为纳入到企业的销售漏斗中并转化成一项巨大的潜在价值,就是所谓的360度客户视角。例如谷歌的销售策略主要着眼于在线的免费软件,用户使用这些软件时,无形中就把个人的喜好、消费习惯等重要信息提交给了谷歌,因此谷歌的产品线越丰富,他们对用户的理解就越深入,其广告定位就越精准,广告所攫取的价值就越高,这是正向的循环。 2.3 公众服务
大数据的另一大应用领域是公众服务。如今数据挖掘已经能够预测海啸、地震、疾病暴发,理解交通模型并改善医疗和教育等。例如,可采用神经网络和基于地震时间序列的支持向量机方法来预测地震的大概方位、时间、震级大小等重要信息,为通用地震模拟程序提供关键的数据,从而对地震进行早期预警,以使防震抗灾部门可以提前做好应对措施,避免大量的人员伤亡及财产损失;再如,将各个省市的城镇医疗系统、新农村合作医疗系统等全部整合起来,建立通用的电子病历等基础数据库,实现医院之间对病患信息的共享,提高患者就医效率[3];电力管理系统通过记录人们的用电行为信息(做饭、照明、取暖等),大数据智能电网就能实现优化电的生产、分配及电网安全检测与控制,包括大灾难预警与处理、供电与电力调度决策支持和更准确的用电量预测等,并通过数据挖掘技术找出可行的节能降耗措施,以实现更科学的电力需求分配管理。
2.4 安防领域
安防领域中最重要的就是视频监控系统,从早期看得见到现在看得远、看得清,视频监控是典型的数据依赖型业务,依赖数据说话。尤其是高清、超高清监控时代的到来,会产生巨量的视频数据。这些巨量视频监控数据中,多数是冗余无用的,只有少数是关键数据,如何剔除这些无用数据,一直是人们研究问题的焦点。在大数据技术的支撑下,通过对巨量视频数据的分析与处理,可实现模糊查询、精准定位、快速检索等,能够对高清监控视频画质进行细节分析,智能挖掘出类似行为及特征的数据,从而为业务分析和事件决策判断提供精准依据。
3 大数据处理关键技术
3.1 数据备份技术
在大数据时代,如何做好数据的安全备份至关重要。数据备份是数据容灾的前提,具体是指当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地将数据进行恢复的技术。数据容灾备份是为防止偶发事件而采取的一种数据保护手段,其核心工作是数据恢复,根本目的是数据资源再利用。
3.2 Hadoop
大数据时代对于数据分析、管理等都提出了更高层次的要求,传统的关系型数据库和数据分析处理技术已经不能满足大数据横向扩展的需求。为了给大数据处理、分析提供一个性能更好、可靠性更高的平台,Apache基金会开发了一个开源平台Hadoop[4],该平台用Java语言编写,可移植性强,现在Hadoop已经发展为一个包括HDFS(分布式文件系统 )、HBase(分布式数据库)等功能模块在内的完整生态系统,成为目前主流的大数据应用平台。
3.3 云计算
如果把各种各样的大数据应用比作在公路上行驶的各种汽车,那么支撑这些汽车快速运行的高速公路就是云计算,云计算是大数据分析处理技术的核心。正是由于云计算在海量信息存储、分析及管理方面的技术支持,大数据才有了如此广阔的用武之地。谷歌的各种大数据处理技术和应用平台都是基于云计算,最典型的就是以UFS(UIT云存储系统)、MapReduce(批处理技术)、BigTable(分布式数据库)为代表的大数据处理技术以及在此基础上产生的开源数据处理平台Hadoop[5]。
4 大数据应用带来的信息安全隐患及应对策略
大数据时代,海量数据通常存储在大规模分布式的网络节点中,管理相对分散,而且系统也无法控制用户进行数据交易的场所,因此很难辨别用户的身份(合法及非法用户),容易导致不合法用户篡改或窃取信息;此外,大数据存储系统中包含了海量的个人用户隐私数据及各种行为的记录信息,如何在大数据的挖掘利用中确定一个信息保护和开放的尺度, 是大数据面临的又一难题。为了合理利用大数据并有效规避风险,我们提出以下四点建议:
⑴ 国家出台相关政策,加强顶层设计,保障数据存储安全;
⑵ 增强网络安全防护能力,抵御网络犯罪,确保网络信息安全;
⑶ 提高警惕积极探索,加大个人隐私数据保护力度;
⑷ 深化云计算安全领域研究,保障云端数据安全。
5 结束语
在当今信息知识爆炸的时代,大数据技术已经被广泛应用于商业金融、电力医疗、教育科研等领域。随着数据挖掘技术的不断进步,相关信息行业竞相从规模庞大、结构复杂的大数据海洋中攫取更多有价值的数据信息用于分析、解决现实生活中的各种实际问题,从而实现信息技术的快速健康发展。本文梳理了大数据的基本概念及4V特征,总结归纳了大数据技术的四大热门应用领域及三大核心处理技术,分析了大数据技术带来的诸如信息窃取及篡改、个人隐私数据泄露等信息安全隐患,并提出了相应的解决措施及建议。当然,目前大数据技术的研究尚处在起步阶段,还有许多深层次的问题亟待解决,如大数据的存储管理是通过硬件的简单升级还是通过系统的重新设计来解决,大数据4V特征中起关键作用的是什么,大数据技术的应用前景是什么,等等。就目前来看,未来大数据技术的研究之路还很长,需要我们用更加敏锐的洞察力来分析和研究。
参考文献:
[1] BARWICK H. The "four Vs" of big data. Implementing Information Infrastructure Symposium[EB/OL]. [2012-10-02]. http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[2] 韦雪琼,杨哗,史超.大数据发展下的金融市场新生态[Jl.时代金融,2012.7:173-174
[3] 张敬谊,佘盼,肖筱华.基于云计算的区域医疗信息化服务平台的研究[J].计算机科学,2013.40(10):360-365
[4] Hadoop [EB/OL].[2012-10-02].http://hadoop.apache.orq.
[5] 吴朱华.云计算核心技术剖析[M].人民邮电出版社,2011.