加入收藏 | 设为首页 | 会员中心 | 我要投稿 天瑞地安资讯网 (https://www.ruian888.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据基本架构及名词

发布时间:2022-09-30 11:38:40 所属栏目:大数据 来源:
导读:  数据采集、数据清洗、数据存储、数据计算、数据查询、数据展示、数据使用几个过程

  数据采集:

  从各个数据源接受数据,数据的来源主要有,集成SDK所收集的数据,导入的数据,爬虫爬取的数据,同步
  数据采集、数据清洗、数据存储、数据计算、数据查询、数据展示、数据使用几个过程
 
  数据采集:
 
  从各个数据源接受数据,数据的来源主要有,集成SDK所收集的数据,导入的数据,爬虫爬取的数据,同步日志数据(Flume)、从数据库中同步数据(Sqoop)
 
  数据清洗:
 
  数据清洗指的是发现原始数据中的异常值、重复值并进行修复或丢弃的过程。数据清洗过程主要检查数据有无缺失、有无错误、有无重复等。
 
  数据存储:
 
  数据存储即数据持久化,大量数据需要快速高效安全的保存到硬盘上,因此,数据存储要求可靠、快速存取等,因此,数据存储往往采用HDFS(分布式存储系统)
 
  数据计算:
 
  数据计算和数据数据存储是大数据的核心,不同应用场景对于计算的需求往往千差万别,比如有些应用要求实时性高,有些应用要求数据规模大等。计算的方式也衍生出离线计算和实时计算,同时数据平台一般具有多种计算框架(如流式计算(storm)、批量计算(spark、mapreduce)等)以满足不同的需求。
 
  数据查询:
 
  数据的收集处理完成后,用户往往会有查询数据的需求。查询的方式往往采用sql的方式进行大数据架构标准,查询对事件要求很高,因此往往需要独立的数据引擎(如hive sql)。
 
  数据展示:
 
  数据平台往往需要可视化管理界面进行展示数据,方便用户使用数据。
 
  数据使用:
 
  数据使用场景很多,比如精准广告、个性化推荐、用户画像等。
 

(编辑:天瑞地安资讯网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!