关于本子项目的部署、运行与代码细节,请参考《大数据平台架构与原型实现:数据中台建设实战》一书第7章以及第4章4.5节
友情提示:如果该项目提交后迟迟进入不到运行状态,请确认你的集群资源是否充足,同时可以考虑将profile文件中spark.num.executors与spark.executor.cores两个参数的数值调低。
如无必要,不建议同时启动bdp-stream和bdp-dwh的作业,以免因为资源不足导致作业pending,如果确实需要同时运行,在确保资源充足的前提下,可以通过Yarn的动态资源池为bdp-stream和bdp-dwh两个用户分配隔离资源。
在真实的生产环境中,流计算项目一般不于批处理项目在同一集群上运行。