博客
关于我
大数据概念
阅读量:520 次
发布时间:2019-03-07

本文共 1185 字,大约阅读时间需要 3 分钟。

大数据计算技术

 大数据概念

 大数据计算体系

 数据采集与建模

 大数据分析算法

 大数据处理技术

 数据可视化

 Hadoop计算体系

 HDFS/HBase存储架构

 MapReduce计算模型

 图并行计算框架

 流计算

 内存计算


大数据概念

 数据是什么?

 数据科学是什么?

 大数据基本属性是什么?


什么是大数据(Big Data)?   4V

Volume:   数据量异常庞大,一般达到PB量级

Variety:  数据呈异构化,数据来源呈多样性

Velocity: 数据处理要求时效性

Value:    单个数据无价值,但大规模数据拥有巨大价值


什么是大数据?

数据种类的多样性:文字、语音、图片、视频、信息等

数据对象的多样性:个人信息、个人数据、商业服务数据、社会公共数据、自然界数据、物质世界的数据

数据来源的多样性:在数据层面打破现实世界的界限,多家公司的共享替代一家公司的数据


大数据概念——数据的定义

数据的定义

数据的基本定义

计算机学科中数据的定义

数据的多样化

数据的形式多样化

数据的来源多样化

数据的范围多样化

数据转换过程

数据-信息-知识-价值转换模型


大数据概念——基本属性

Volume:大数据的超大规模

规模体现

    带来的影响:

    数据存储架构:

基于行-键表格存储格式的关系型数据库

基于分布式文件系统的分布式数据库

     计算模型:

离线批处理计算框架( MapReduce)

BSP图并行计算框架(Pregel、Hama)

交互式计算模型

大内存计算系统


Variety:大数据来源多样性与异构性

大数据类型划分:

依结构特征划分

依时效性划分

依关联特性划分

依数据类型划分

依数据来源划分

带来影响:

数据存储、管理和快速查询异常困难


Value:价值低密度特性

区别于传统数学统计学方法的关键之处 

 

传统数学统计学

大数据分析计算方法

处理对象

局部数据或数据子集

以数据整体或完整数据集作为处理对象

处理方法

基于抽样调查的随机分析方法

机器学习方法

通过数据的积累来训练和改进算法和计算程序

结果正确性

取决于随机抽样模型产生的数据集的代表性

处理数据量越大,

计算结果越越优化

大数据技术特征

大数据算法特性

大数据计算系统特性

大数据开发技术特性


大数据算法特性

 

 

大数据计算

传统统计学

样本空间

整个数据集

基于独立同分布原理抽取样本集

计算方法

机器学习方法

按照固定数学模型进行预测

优势

避免样本失真

预测结果的精度改进是一个动态

 

大数据计算系统特性

 

大数据计算系统

传统数据库系统

优势

基础模型

分布式文件系统

NoSQL非关系型数据库

关系型模型

支持非结构化或异构数据的存储和处理

支持分布式系统部署

支持超大规模数据集完成快速查询操作

存储格式

基于键值对的列存储格式

基于主键的行存储格式

更优的查询效率

更好的对计算模型的支持

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

转载地址:http://meznz.baihongyu.com/

你可能感兴趣的文章
Nginx配置实例-反向代理实现浏览器请求Nginx跳转到服务器某页面
查看>>
Nginx配置实例-负载均衡实例:平均访问多台服务器
查看>>
Nginx配置文件nginx.conf中文详解(总结)
查看>>
Nginx配置自带的stub状态实现活动监控指标
查看>>
Nginx配置详解
查看>>
nginx配置详解、端口重定向和504
查看>>
Nginx配置负载均衡到后台网关集群
查看>>
Nginx配置限流,技能拉满!
查看>>
Nginx配置静态代理/静态资源映射时root与alias的区别,带前缀映射用alias
查看>>
Nginx面试三连问:Nginx如何工作?负载均衡策略有哪些?如何限流?
查看>>
nginx:/usr/src/fastdfs-nginx-module/src/common.c:21:25:致命错误:fdfs_define.h:没有那个文件或目录 #include
查看>>
Nginx:NginxConfig可视化配置工具安装
查看>>
ngModelController
查看>>
ngrok | 内网穿透,支持 HTTPS、国内访问、静态域名
查看>>
ngrok内网穿透可以实现资源共享吗?快解析更加简洁
查看>>
NHibernate学习[1]
查看>>
NHibernate异常:No persister for的解决办法
查看>>
nid修改oracle11gR2数据库名
查看>>
NIFI1.21.0/NIFI1.22.0/NIFI1.24.0/NIFI1.26.0_2024-06-11最新版本安装_采用HTTP方式_搭建集群_实际操作---大数据之Nifi工作笔记0050
查看>>
NIFI1.21.0_java.net.SocketException:_Too many open files 打开的文件太多_实际操作---大数据之Nifi工作笔记0051
查看>>