热门排行
简介
DataBand(数据帮),快速采集清洗,任务管理,实时流和批处理数据分析,数据可视化展现,快速数据模板开发,ETL工具集、数据科学等。是轻量级的一站式的大数据平台。 我们致力于通过提供智能应用程序、数据分析和咨询服务来提供最优解决方案。
技术栈
存储
分布式存储:HDFS、HBase
行式关系存储:MySQL、Oracle
列式存储:ClickHouse
列族存储:HBase、Cassandra
文档库:ElasticSearch、MongoDB
计算
计算引擎:Presto、Hive
流处理:Storm、Flink
集成:
Flume
Filebeat
Logstash
前端技术栈
Vue
Element UI
后端技术栈
Spring Boot
Spring Cloud
MyBatis
工程说明
大数据模拟数据源生成数据(数据准备工程)
数据源:
databand-mock-api:接口模拟工具,模拟业务系统api;
databand-mock-log:日志模拟工具,手动产生大量的日志数据供调试测试,比如Syslog、log、CSV生成、Json、MySQL注入、RPC写、NetCat等;
databand-mock-mq:日志模拟工具,通过MQ写产生大量的日志数据供调试测试,比如RabbitMQ写、Kafka写等;
databand-mock-hadoop:大数据日志模拟工具,hdfs和mapreduce相关;
数据采集清洗(采集清洗工程)
databand-etl-mysql_ods:采集清洗mysql数据比如MySQL到ods临时中间库(包括Redis、Kafka等);
databand-etl-mysql_olap:采集清洗mysql数据到OLAP数据仓库;
databand-etl-mysql_hadoop:采集清洗mysql数据到Hadoop分布式存储;
databand-etl-logfile_ods:采集清洗半结构化日志文件,比如json、xml、log、csv文件数据到ods临时中间库;
databand-etl-logfile_olap:采集清洗半结构化日志文件数据到OLAP数据仓库;
databand-etl-logfile_hadoop:采集清洗日志文件数据到Hadoop分布式存储;
databand-etl-mq_ods:通过MQ消费采集数据,入ods库;
databand-etl-mq_olap:通过MQ消费采集数据,入OLAP库;
databand-etl-mq_hadoop:通过MQ消费采集数据,入Hadoop;- databand-ml:数据科学工程;
数据分析作业(定时作业调度工程)
databand-job-springboot:定时任务作业调度服务,支持shell,hive,python,spark-sql,java jar任务。
databand-streamjob-springboot:流数据作业,支持kafka数据消费至clickhouse、mysql、es等。
数据分析门户(后端管理和前端展示工程)
databand-admin-ui:前后端分离的纯前端UI工程,数据展现(目前未开发);
databand-admin-thymeleaf:后端权限、关系、站点配置管理(前后端不分离,正在开发的版本),基于若依框架;
databand-admin-api:数据api服务;
databand-admin-tools:BI工具集;
实时流数据
databand-rt-flinkstreaming:flink实时数据流处理。主要是PV、UV,涉及窗口、聚合、延时、水印、统计、checkpoint等基本用法;
databand-rt-redis:实时处理的一些缓存存储;
databand-rt-sparkstreaming:spark实时数据流处理,和flink的功能近似,主要structured streaming;