在Hadoop中进行数据可视化和报表生成的主要方式是:
1、 使用Pig/Hive进行简单的统计与汇总:
- COUNT、SUM、AVG等统计聚合函数。
- GROUP BY进行分组统计。
2、 将统计结果存储在Hbase/Hive表中:
- 创建外部表存储统计数据。
- 使用Sqoop导出到RDBMS。
3、 使用LUCENE为统计结果建立索引:
- 统计结果存储在HDFS上。
- 使用LUCENE为结果文件建立索引。
- 通过LUENE搜索接口查询统计数据。
4、 使用Zeppelin/Jupyter进行数据可视化:
- 读取存储在Hive、Hbase和HDFS上的数据源。
- 使用MatplotLib、Bokeh等工具绘制统计图表。
- 支持markdown、html、Scala/Python/SQL等语言。
5、 Zeppelin显示Hive表统计示例:
- 创建Hive表:
CREATE TABLE page_views
(viewTime INT, userid BIGINT,
page_url STRING, referrer_url STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
- Zeppelin显示图表:
SELECT page_url, count(*) as counts
FROM page_views
GROUP BY page_url
ORDER BY counts DESC LIMIT 5
数据可视化的主要作用是:
- 以图表直观展示统计与分析结果。
- 帮助业务人员快速理解数据并作出判断。
- 发现数据的异常与规律。
- 为报表和Dashboard提供数据源。
所以通过Hive进行统计与汇总,再使用Zeppelin将结果转化为图表,我们可以实现简单高效的数据可视化分析功能。