`

数据库大数据统计的设计方案

阅读更多

需要对一个大数据量(数量级在亿级别)的表,进行数据统计。

我想到要对数据库表进行水平切分。

为了后面方便描述,我先假设表里有三个字段,一个是用户的ID,一个是交易的金额,一个是交易的时间。

但问题是,比如我的统计要求是:要根据指定用户ID,以及一定交易时间区间(比如当前时间之前1个月内),用户金额的汇总达到一定数额的,我需要获取满足这些条件的用户ID列表。

假设设计水平切分,可以根据用户创建创建先后进行切分(其实针对前面描述的统计要求,根据用户的ID进行切分会更好。但考虑到有些统计项不包括用户ID,所以没有选择根据用户ID进行切分)。

当我们对数据完成切分之后,问题就出在对每个切片进行统计这里,因为我不知道其他的切片里,该用户的金额是多少,所以在对每一个切片进行统计的时候,无法判断是否满足统计条件(金额大于指定的值)。

所以就导致了要对每个切片里所有用户做group,然后再汇总每个切片的统计结果。

 

有没有什么更好的解决思路?

分享到:
评论
41 楼 InnocentBoy 2010-09-28  
拆分表,用存储过程统计!
40 楼 fredzhangjy 2010-09-19  
学习。。作个标记
39 楼 forchenyun 2010-09-18  
wormwang 写道
Sun x4540 有48个内置硬盘位,可配6个磁盘控制器,AMD CPU。
另外,华赛,Dell,HP近年也出了一些有24个内置硬盘位的PC服务器。


18w多一个的PC,标配48×250G,2个CPU,金融行业吧?   
不过还是非常钦佩你们单节点可以支持2000亿的数据,期待你更多的经验分享
38 楼 jieyuan_cg 2010-09-17  
刚去查了下,还真有……
http://product.pconline.com.cn/server/sun/334512.html
37 楼 jieyuan_cg 2010-09-17  
wormwang 写道
Sun x4540 有48个内置硬盘位,可配6个磁盘控制器,AMD CPU。
另外,华赛,Dell,HP近年也出了一些有24个内置硬盘位的PC服务器。


第一次听说一个pc服务器上有48个硬盘位……佩服。
36 楼 wormwang 2010-09-17  
Sun x4540 有48个内置硬盘位,可配6个磁盘控制器,AMD CPU。
另外,华赛,Dell,HP近年也出了一些有24个内置硬盘位的PC服务器。

35 楼 forchenyun 2010-09-15  
wormwang 写道
InfoBright 是学Greenplum 的数据库并行处理的技术架构的。
20万亿的表那个系统用了近百个PC服务器节点。每台PC服务器配置了48个1TB的SATA硬盘。

Greenplum 数据库还支持按列存储,数据库内压缩,存储过程。它奇快无比。
用了这类分布式数据库,原来Oracle/MySQL的分库,分区,索引很多都不用做了。

能告知你们的“pc服务器”配置吗?
带48T硬盘的PC
34 楼 wormwang 2010-09-15  
InfoBright 是学Greenplum 的数据库并行处理的技术架构的。
20万亿的表那个系统用了近百个PC服务器节点。每台PC服务器配置了48个1TB的SATA硬盘。

Greenplum 数据库还支持按列存储,数据库内压缩,存储过程。它奇快无比。
用了这类分布式数据库,原来Oracle/MySQL的分库,分区,索引很多都不用做了。
33 楼 xds2000 2010-09-12  
楼主的问题,很明显是数据库瓶颈。Mysql是数据库,作分析弱了点。上数据仓库才是正道。
楼主可参考一下infobright.当然"数据仓库"是个概念,并不是一个具体软件就能解决。还需要你来结合实际作一下架构设计。
数据仓库的理论,看这本书可以上手。
http://book.douban.com/subject/1881631/
32 楼 aws 2010-09-09  
ORACLE RAC (4 节点)
– 41s

我们项目都是用这个,不过我们的客户是有钱的主
31 楼 jychenok 2010-09-08  
我们也是用分区的.......而且为了不影响业务速度,都是去物化视图里捞数据.....
30 楼 lkj107 2010-09-07  
数据量大的都是日结、月结、年结的

上亿条可以表分区

可以多表存储,这个存储有技巧的,常用的统计数据放到一个表里
29 楼 forchenyun 2010-09-07  
wormwang 写道
我没说以上性能是单节点跑出来的。

20万亿行那个实例,用了100个节点,都是PC服务器。

多张 20亿记录的表Join,数秒完成,那个实例用了60台PC服务器。

按照一行记录1k来算,20万亿基本就是18626T(保守估计,实际肯定会有30%左右的额外开销),这还不包括为数据可靠性而进行的冗余,100个节点单台机器需要支撑186T(或者说2000亿)的数据,我非常非常好奇你们是如何管理这么庞大的数据的
28 楼 wormwang 2010-09-07  
我没说以上性能是单节点跑出来的。

20万亿行那个实例,用了100个节点,都是PC服务器。

多张 20亿记录的表Join,数秒完成,那个实例用了60台PC服务器。
27 楼 smartinvoke 2010-09-07  
wormwang 写道
• Hadoop+Hive (ASC 15节点)
– 3m30s
• ORACLE RAC (4 节点)
– 41s
• GREENPLUM(2 节点)
– 6012.852 ms

某处大数据量测试结果。
实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-)..

貌似言过其实了吧
26 楼 forchenyun 2010-09-07  
wormwang 写道
• Hadoop+Hive (ASC 15节点)
– 3m30s
• ORACLE RAC (4 节点)
– 41s
• GREENPLUM(2 节点)
– 6012.852 ms

某处大数据量测试结果。
实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-)..

20万亿行的数据有多大?单行占多少字节?
按照你的描述单节点支撑10万亿的数据,只能用可怕形容了
请问有公司将其应用于产品的例子吗?
25 楼 wormwang 2010-09-07  
• Hadoop+Hive (ASC 15节点)
– 3m30s
• ORACLE RAC (4 节点)
– 41s
• GREENPLUM(2 节点)
– 6012.852 ms

某处大数据量测试结果。
实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-)..
24 楼 forchenyun 2010-09-07  
wormwang 写道
MySQL Cluster 是硬拼凑出来的架构。MySQL内部的人都不说好,没信心。
你喜欢MySQL,不如看看InfoBright,另外一个类似Greenplum的分布式数据库。

Greenplum等C++/C 实现的分布式关系数据库比在Hadoop 上桥接的HIVE快上百倍。


这东西成熟吗?万亿的数据量有相关的测试报告没?
当然如果成熟的话,这的确是一个值得考虑的选择。
23 楼 wormwang 2010-09-07  
MySQL Cluster 是硬拼凑出来的架构。MySQL内部的人都不说好,没信心。
你喜欢MySQL,不如看看InfoBright,另外一个类似Greenplum的分布式数据库。

Greenplum等C++/C 实现的分布式关系数据库比在Hadoop 上桥接的HIVE快上百倍。

22 楼 hu97086 2010-09-07  
离线的话,建议使用Hadoop+HIVE,你的数据也需要整理一下。

相关推荐

    旅游大数据平台方案.docx

    在亚太区,澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面,更关注如何根据新的最佳实践需求设计和实施方案。中国和印度在大数据领域的硬件投资则非常明显,更倾向于数据中心相关的基础架构的投资。 ...

    云数据库方案设计.docx

    与大数据平台的互访 云数据库方案设计全文共6页,当前为第4页。大数据计算平台,例如Spark、HIVE等,需要支持大数据计算平台与数据库互访。以大数据计算平台为中心,建立分析平台。 云数据库方案设计全文共6页,...

    云数据库方案设计.doc

    云数据库方案设计 云数据库的云化改造 面向云化环境,数据库在多个方面需要进行改造,包括快捷的安装部署,提供数据 库的动态伸缩和资源隔离,以及监控、迁移、备份等一体化管理,以适应云环境中自动 安装部署、一体...

    云数据库方案设计(1).doc

    云数据库方案设计 云数据库的云化改造 面向云化环境,数据库在多个方面需要进行改造,包括快捷的安装部署,提供数据 库的动态伸缩和资源隔离,以及监控、迁移、备份等一体化管理,以适应云环境中自动 安装部署、一体...

    政务大数据-法人库建设方案.pptx

    FR查询接口 生命周期查询 关键人 查询类 股东 决策人 关键人 联系人 注销登记数 注册资金 信息完整率 统计类 区域商业指数 园区行业标签 接口类别 指标类别 政务大数据-法人库建设方案全文共8页,当前为第6页。...

    数据科学与大数据技术.pdf

    本专业面向工业大数据、商业大数据、金融大数据、政府政务大数据与智慧 城市大数据等不同行业, 培养学生具备扎实的数学与计算机科学基础、基于统计 与优化的数据分析与建模能力、 基于专业化行业知识的数据应用解决...

    医疗大数据应用分析.pptx

    药物研发 药品作用追踪 药品销量统计 药品销量预测 降低研发成本 降低物流成本 精准营销 增加销售额 降低医疗费用 加强医保欺诈 监管 基本药物临床 应用分析 设计面向患者 和医生的 新险种 市场和销售 推广 提升全民...

    新型智慧城市公共基础数据库平台建设方案

    新型智慧城市公共基础数据库平台建设方案 1智慧城市大数据中心 智慧城市大数据中心是以城市数据资源的共享交换、开发和服务为主线,汇集散落在各个委办局的各类数据,消除信息孤岛,横向打通委办局的业务壁垒,纵向...

    大数据是系统工程.docx

    存储、内存、CPU、ERP、数据库、操作系统等IT 各个细分领域的厂商都在谈大数据。延用互联网的说法,这些厂商都在抢占大数据的入口。 如果从解决方案的角度看,大数据与BI还有本质的不同。数据量大、结构复杂,传统的...

    大数据架构师的岗位职责.docx

    大数据架构师的岗位职责1 职责: 1、负责公司大数据产品的架构设计,包含数据收集、数据存储、数据应用,并完成相关架构设计文档的撰写; 2、参与规划从数据源到数据应用的整体流程,并参与相关产品的决策; 3、负责...

    01开源NewSql数据库TiDB Introduction (Feb 2018)

    TiDB 整套系统的复杂性比较高,运维及使用的难度要大于单机数据库,所以希望能提供尽可能方便的方案帮助用户使用 TiDB。比如尽可能简化部署、升级、扩容方式,尽可能容易的定位系统中出现的异常状态。 围绕上面三点...

    大数据在医疗领域的应用.docx

    保险产品研发和营销方面 基于对医疗大数据的掌握,保险公司在设计商业保险时可以依据保险覆盖地区的具体疾病发病情况、区域内医疗机构的诊疗水平、本地区群众的消费能力,更为精准地确定商业保险产品方案中所涉及的...

    面对大数据的数据仓库系统.pptx

    数据分析工具 数据库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更需要强大的分析和挖掘工具。 面对大数据的数据仓库系统全文共45页,当前为第14页。 数据仓库概述 数据仓库系统的体系结构 1. 元...

    R的极客理想-工具篇

    书中内容涉及计算机、互联网、数据库、大数据、统计、金融等领域,详细总结了R语言与Java、MySQL、Redis、MongoDB、Cassandra、Hadoop、Hive、Hbase等技术的综合运用的解决方案,具有实战性,可操作性强。...

    数据安全治理相关文档 数据防泄漏DlP,数据库审计、数据安全治理解决方案、数据安全架构

    基于统计量特征的数据库指纹方法pdf 基于铁路数据服务平台的多源数据融合架构研究.pdf 大数据应用中的数据安全治理技术与实践.pdf 《数据安全治理白皮书 4.0》全文,pdf 中国非结构化数据中台实践白皮书,pdf 信息通信...

    基于大数据背景下的智慧校园网络平台设计与可视化分析及展示 机器学习,智能对话,可视化大屏展示

    主要利用机器学习统计算法来进行对智慧课堂文档中的问题语句进行语义,词性分析。 利用jieba 分词,来进行处理。根据数据库文件中的同义词作为,分词词典。 输入:一段自然语言 输出:问题的解决方案 示例: 输入:...

    R的极客理想__工具篇

    书中内容涉及计算机、互联网、数据库、大数据、统计、金融等领域,详细总结了R语言在实际使用时与Java、MySQL、Redis、MongoDB、Cassandra、Hadoop、Hive、HBase等技术综合运用的解决方案,具有实战性及可操作性强等...

    基于Java+Springboot+Vue的教务管理系统(完整源码+说明+数据库)(学生+教师+教务人员).zip

    基于Java+Springboot+Vue的教务管理系统(源码+项目说明+数据库)(学生: 登录、首页统计、学生选课、成绩查询、个人课表、学生评价、教学计划、培养方案、个人中心、密码修改2、教师: 成绩录入、课程评价查询、选课...

    数据分析方案设计7要素.docx

    随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,急需一些革命性的技术去挖掘数据背后的信息。 大数据来临 2000年到2010年是大数据兴起和备受关注的时期,谷歌的...

    交通管控大数据分析研判系统设计方案.docx

    存储层:包括Hadoop数据库,用于存储海量结构化数据和非结构化数据。可通过动态增加节点,提升吞吐能力,扩展存储、查询、分析性能。 应用层:包含实时预警、信息检索、信息查询、统计分析、技战法分析、车辆布控等...

Global site tag (gtag.js) - Google Analytics