大数据已经逐渐普及,大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
一、数据采集
如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一,数据采集才是大数据产业的基石。那么什么是大数据采集技术呢?数据采集(DAQ):又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。
数据分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其分为线上行为数据与内容数据两大类。
▷线上行为数据:页面数据、交互数据、表单数据、会话数据等。
▷内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。
▷大数据的主要来源(人、环境、物体等,互联网,物联网等):
1)商业数据
2)互联网数据
3)传感器数据
数据采集与大数据采集区别
传统数据采集
1.来源单一,数据量相对于大数据较小
2.结构单一
3.关系数据库和并行数据仓库
大数据的数据采集
1.来源广泛,数据量巨大
2.数据类型丰富,包括结构化,半结构化,非结构化
3.分布式数据库
传统数据采集的不足
传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。
对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性
大数据采集新的方法
▷系统日志采集方法
很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
▷网络数据采集方法
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。
该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。
它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。
▷其他数据采集方法
对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
二、大数据预处理
高质量的决策必须依赖高质量的数据,而从现实世界中采集到的数据大多是不完整、结构不一致、含噪声的脏数据,无法直接用于数据分析或挖掘。数据预处理就是对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等。这个处理过程可以帮助我们将那些杂乱无章的数据转化为相对单一且便于处理的构型,以达到快速分析处理的目的。
通常数据预处理包含三个部分:数据清理、数据集成、变换以及数据规约。
一)、数据清理
并不是所有的数据都是有价值的,有些数据并不是我们所关心的内容,有些甚至是完全错误的干扰项。因此要对数据过滤、去噪,从而提取出有效的数据。
数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在着错误、或偏离期望值的数据)、不一致数据处理。
遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理;
噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音;对于不一致数据则可进行手动更正。
二)、数据集成与变换
数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。这一过程中需要着重解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。
由于来自多个数据集合的数据在命名上存在差异,因此等价的实体常具有不同的名称。如何更好地对来自多个实体的不同数据进行匹配是如何处理好数据集成的首要问题。
数据冗余可能来源于数据属性命名的不一致,在解决数据冗余的过程中,可以利用皮尔逊积矩Ra,b来衡量数值属性,绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。
数据集成中最后一个重要问题便是数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。
为了更好地对数据源中的数据进行挖掘,数据变换是必然结果。其主要过程有平滑、聚集、数据泛化(使用高层的概念来替换低层或原始数据)、规范化(对数据)以及属性构造等。
三)、数据规约
数据规约主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等。
假若根据业务需求,从数据仓库中获取了分析所需要的数据,这个数据集可能非常庞大,而在海量数据上进行数据分析和数据挖掘的成本又极高。使用数据规约技术则可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原数据的完整性。在规约后的数据集上进行挖掘,依然能够得到与使用原数据集近乎相同的分析结果。
三、存储及管理技术
在大数据时代的背景下,海量的数据整理成为了各个企业急需解决的问题。
云计算技术、物联网等技术快速发展,多样化已经成为数据信息的一项显著特点,为充分发挥信息应用价值,有效存储已经成为人们关注的热点。
为了有效应对现实世界中复杂多样性的大数据处理需求,需要针对不同的大数据应用特征,从多个角度、多个层次对大数据进行存储和管理。
一)大数据面临的存储管理问题
●存储规模大
大数据的一个显著特征就是数据量大,起始计算量单位至少是PB,甚至会采用更大的单位EB或ZB,导致存储规模相当大。
●种类和来源多样化,存储管理复杂
目前,大数据主要来源于搜索引擎服务、电子商务、社交网络、音视频、在线服务、个人数据业务、地理信息数据、传统企业、公共机构等领域。
因此数据呈现方法众多,可以是结构化、半结构化和非结构化的数据形态,不仅使原有的存储模式无法满足数据时代的需求,还导致存储管理更加复杂。
●对数据服务的种类和水平要求高
大数据的价值密度相对较低,以及数据增长速度快、处理速度快、时效性要求也高,在这种情况下如何结合实际的业务,有效地组织管理、存储这些数据以能从浩瀚的数据中,挖掘其更深层次的数据价值,需要亟待解决。
大规模的数据资源蕴含着巨大的社会价值,有效管理数据,对国家治理、社会管理、企业决策和个人生活、学习将带来巨大的作用和影响,因此在大数据时代,必须解决海量数据的高效存储问题。
二)我国大数据的存储及处理能力挑战
当前,我国大数据存储、分析和处理的能力还很薄弱,与大数据相关的技术和工具的运用也相当不成熟,大部分企业仍处于IT产业链的低端。
我国在数据库、数据仓库、数据挖掘以及云计算等领域的技术,普遍落后于国外先进水平。
在大数据存储方面,数据的爆炸式增长,数据来源的极其丰富和数据类型的多种多样,使数据存储量更庞大,对数据展现的要求更高。而目前我国传统的数据库,还难以存储如此巨大的数据量。
因此,如何提高我国对大数据资源的存储和整合能力,实现从大数据中发现、挖掘出有价值的信息和知识,是当前我国大数据存储和处理所面临的挑战。
三)大数据存储管理技术
近年来,企业也从大数据中受益,大幅度推动支出和投资,并允许他们与规模更大的企业进行竞争。
所有事实和数字的存储和管理逐渐变得更加容易。以下是有效存储和管理大数据的三种方式。
●不断加密
任何类型的数据对于任何一个企业来说都是至关重要的,而且通常被认为是私有的,并且在他们自己掌控的范围内是安全的。
然而,黑客攻击经常被覆盖在业务故障中,最新的网络攻击活动在新闻报道不断充斥。因此,许多公司感到很难感到安全,尤其是当一些行业巨头经常成为攻击目标时。
随着企业为保护资产全面开展工作,加密技术成为打击网络威胁的可行途径。将所有内容转换为代码,使用加密信息,只有收件人可以解码。
如果没有其他的要求,则加密保护数据传输,增强在数字传输中有效地到达正确人群的机会。
●仓库存储
大数据似乎难以管理,就像一个永无休止统计数据的复杂的漩涡。
因此,将信息精简到单一的公司位置似乎是明智的,这是一个仓库,其中所有的数据和服务器都可以被充分地规划指定。
然而,有些报告指出了反对这种方法的论据,指出即使是最大的存储中心,大数据的指数增长也不再能维持。
然而,在某些情况下,企业可能会租用一个仓库来存储大量数据,在大数据超出的情况下,这是一个临时的解决方案,而LCP属性提供了一些很好的机会。
毕竟,企业不会立即被大量的数据所淹没,因此,为物理机器租用仓库至少在短期内是可行的。这是一个简单有效的解决方案,但并不是永久的成本承诺。
●备份服务-云端
除了所有技术的发展,大数据增长得更快,以这样的速度,世界上所有的机器和仓库都无法完全容纳它。
因此,由于云存储服务推动了数字化转型,云计算的应用越来越繁荣。数据在一个位置不再受到风险控制,并随时随地可以访问,大型云计算公司(如谷歌云)将会更多地访问基本统计信息。
如果出现网络攻击,云端将以A迁移到B的方式提供独一无二的服务。
三)结论
目前原有的存储模式以及跟不上时代的步伐,无法满足数据时代的需求,导致信息处理技术无法承载信息的负荷量。
这就需要对数据的存储技术和存储模式进行创新与研究,跟上数字化存储的技术的发展步伐,给用户提供一个具有高质量的数据存储体验。
根据大数据的特点的每一种技术都各有所长,彼此都有各自的市场空间,在很长的一段时间内,满足不同应用的差异化需求。
但为了更好的满足大数据时代的各种非结构化数据的存储需求,数据管理和存储技术仍需进一步改进和发展。
可能有些中小企业无法自己快速的获取自己的所需的数据进行分析,这就需要到了第三方的数据平台进行大数据分析。
四、大数据分析及挖掘技术
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
一)数据挖掘对象:根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。
二)数据挖掘流程
1)定义问题:清晰地定义出业务问题,确定数据挖掘的目的。
2)数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;
3)数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
4)数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
5)结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
三)数据挖掘分类
直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。
间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。
四)数据挖掘的方法
1、神经网络方法
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。
2、遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
3、决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。
粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。
4、覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。
5、统计分析方法
在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。
6、模糊集方法
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。
大数发掘技术,目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
五)着重突破技术
1.可视化分析
不论是分析专家,还是普通用户,在分析大数据时,最基本的要求就是对数据进行可视化分析。经过可视化分析后,大数据的特点可以直观地呈现出来,将单一的表格变为丰富多彩的图形模式,简单明了、清晰直观,更易于读者接受。
2.数据挖掘算法
数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建该模型,算法将首先分析用户提供的数据,针对特定类型的模式和趋势进行查找。
并使用分析结果定义用于创建挖掘模型的最佳参数,将这些参数应用于整个数据集,以便提取可行模式和详细统计信息。
大数据分析的理论核心就是数据挖掘算法,数据挖掘的算法多种多样,不同的算法基于不同的数据类型和格式会呈现出数据所具备的不同特点。各类统计方法都能深入数据内部,挖掘出数据的价值。
为特定的分析任务选择最佳算法极具挑战性,使用不同的算法执行同样的任务,会生成不同的结果,而某些算法还会对同一个问题生成多种类型的结果。
3.预测性分析
大数据分析最重要的应用领域之一就是预测性分析,预测性分析结合了多种高级分析功能,包括特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等。
从纷繁的数据中挖掘出其特点,可以帮助我们了解目前状况以及确定下一步的行动方案,从依靠猜测进行决策转变为依靠预测进行决策。它可帮助分析用户的结构化和非结构化数据中的趋势、模式和关系,运用这些指标来洞察预测将来事件,并作出相应的措施。
4.语义引擎
非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统地去分析,提炼数据。语义引擎是语义技术最直接的应用,可以将人们从繁琐的搜索条目中解放出来,让用户更快、更准确、更全面地获得所需信息,提高用户的互联网体验。
5.数据质量和数据管理
大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理无论是在学术研究还是在商业应用领域都极其重要,各个领域都需要保证分析结果的真实性和价值性。
可能有些中小企业无法自己快速的获取自己的所需的数据进行分析,这就需要到了第三方的数据平台进行大数据分析。
五、大数据应用
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。
最后,是展现,主要是可视化,现在有很多工具,可以直接展现出各种静态和动态效果,非常酷炫。在此不做描述。