HADOOP与HDFS数据压缩格式

1、cloudera 数据压缩的一般准则

一般准则

  • 是否压缩数据以及使用何种压缩格式对性能具有重要的影响。在数据压缩上,需要考虑的最重要的两个方面是 MapReduce 作业和存储在 HBase 中的数据。在大多数情况下,每个的原则都类似。
  • 您需要平衡压缩和解压缩数据所需的能力、读写数据所需的磁盘 IO,以及在网络中发送数据所需的网络带宽。正确平衡这些因素有赖于集群和数据的特征,以及您的
  • 使用模式。
  • 如果数据已压缩(例如 JPEG 格式的图像),则不建议进行压缩。事实上,结果文件实际上可能大于原文件。
  • GZIP 压缩使用的 CPU 资源比[......]

Read more

新征程–2016年的展望

将近两年不写博客了,两年时间好多东西都变化,好多东西也不变。要恢复写博客的习惯,显然是不容易的。微信,微博,视频,直播都快速消耗我的碎片时间和耐心,就连阅读也都快没耐心看长文了。理想中阅读要像性爱,高潮迭起又要连绵不断,可是又希望如同阳痿一般短促紧凑。

恶劣的惰性让很多美好和牛逼的时光都没有记录下来,没关系,慢慢来。

16年要坚持做几个事情:

1. 锻炼。看到镜子里的自己真是心烦,虽然从来不觉得肌肉男多有美感,但是也远比死胖仔要好。

2. 写码。过去两年多,从研究生毕业到资深工程师,职业生涯算是非常顺利,付出了很多汗水,也有收获。结果不算公平,但也能淡定面对。坚持写码,[......]

Read more

数据秀热力图总结

离线热力图

展示内容

         数据秀离线热度展示的是过去15天内用户定位点形成的热力图,可以看出我们用户的分布情况。通过可视化展示之后,可以看到一些有意思的事情,比如:

offline-heatmap1
可以明显看出我们用户分布出现一边倒的局面,至于原因,也许与西北地区人口密度、经济状况或者我们公司的推广策略有关。

offline-heatmap2
这个热度明显跟城市的发达情况存在很大关联,最热的地方理所当然是北上广。

offline-heatmap3
隐约看到了交通路线

技术实现

 [......]

Read more

实时定位可视化展现

启明星产品新增了实时数据后,使得实时获取各种amap客户端各种数据成为了可能。理所当然地,我们一定好奇作为一款交通出行软件,能不能将正在使用的用户展示出来?于是

Screen-Shot-2015-11-11-at-17.34.25

aos接口请求中有很多是带有用户位置经纬度的,将所有带经纬度的接口日志部署到我们的实时任务中,实时定位的数据服务就有了。

 

页面展现部分,首先我们根据预期效果需要一个中国地图,但又不是那种带有道路poi的地图,我们只需要一个地图轮廓就可以了。而且地图还要能支持一定级别的放大缩小,方便聚焦到某个地区查看地图用户的分布情况。

 

这里使用的是d3用来展现地图,d3里有各种各样的地[......]

Read more

DQC介绍

DQC
数据质量监控平台
目前支持在云端调度系统中的DT及ODPS SQL数据质量校验

功能特点
•1、支持多种模板级规则

•2、可扩展的模板表达式

•3、支持强弱不同程度校验

•4、支持红橙级别告警

•5、校验规则与任务分离

•6、分区级别质量校验

•7、分区级别质量报告

•8、项目级规则

术语
DQC Data Quality Center数据质量中心
强规则 符合一定条件会阻塞任务的规则.设置强规则后,数据质量超过红色阈值会阻塞此天网任务子继续运行.
弱规则 不会阻塞任务.
橙色阈值 用户设置超过此阈值会报警,处理级别优先级一般较低.
红色阈值 用户设置超过此阈值会报警[......]

Read more

DQC
数据质量监控平台
目前支持在云端调度系统中的DT及ODPS SQL数据质量校验

功能特点
•1、支持多种模板级规则

•2、可扩展的模板表达式

•3、支持强弱不同程度校验

•4、支持红橙级别告警

•5、校验规则与任务分离

•6、分区级别质量校验

•7、分区级别质量报告

•8、项目级规则

术语
DQC Data Quality Center数据质量中心
强规则 符合一定条件会阻塞任务的规则.设置强规则后,数据质量超过红色阈值会阻塞此天网任务子继续运行.
弱规则 不会阻塞任务.
橙色阈值 用户设置超过此阈值会报警,处理级别优先级一般较低.
红色阈值 用户设置超过此阈值会报警[......]

Read more

摩萨德介绍

摩萨德
监控天网上任务的运行情况,保障重要任务在合理的规定时间前产出。

强保障监控:保障重要任务的产出
弱保障监控:任务出错,完成,未完成提醒

任务:对数据进行处理的作业
基线:任务组,可以设置基线时间,表示这组任务的要求产出时间
业务线:有时也称之为应用或者项目,通常表示一个具体的业务项目。例如BI业务线,广告业务线,搜索业务线等等

监控粒度是任务,要保障基线

根据余量和当前时间判断何时报警
余量指的是:任务可以被允许拖延开始的最长时间。
余量是一个任务异常的警戒程度的体现。

参考:

摩萨德介绍:http://www.atatech.org/article/detail/122[......]

Read more