最近的工作总是在 EMR 上跑 Spark 的 job,从代码完毕到测试完毕的过程是这样的:
1. 本地测试:
构建 -> 本地 UT -> 观察分析结果,这一阶段可以发现逻辑问题
2. EMR 上执行测试:
上传最新构建到 S3 -> 准备 EMR 资源(包括计算资源和数据)-> 在 EMR 上执行 Spark job -> 观察分析结果,这一阶段可以发现在数据量较大的情况下才出现的问题
3. Workflow 集成测试(这个 workflow 是公司内部的一个管理 job 的工作流系统):
&nb
[……]阅读全文