工作经历
引入新的开源组件,确保产品安全、稳定、易用
负责 Doris/StarRocks 公有云整体产品规划,作为 MRS 新组件引入,支持基础配置、部署、升级、监控、日志、原生页面等功能;适配 MRS 生态,包括 HMS、Flink、JDBC、Hudi 等组件;设计实现基于 OBS 的冷热分离、存算分离方案,包括参数调优、最佳实践等;优化向量计算、ARM 适配等,效率提升 10% 左右;设计规划云产品的 ServerLess、容器化部署架构;支撑 20+ 客户迁移、上线云服务,实现 Profile 可视化,并基于 Python 实现总结梳理常见场景,有效缩短故障处理时间。
Doris/StarRocks Contributor, Hudi-RS Contributor
高性能处理业务请求,增强观测性,同时应对业务突发流量
通过重构+性能优化等手段有效解决了客户对时效性的要求,同时保证服务的扩展性,总计有 9 个大项 50 个小项优化,近 6W+ 代码修改,90%+ 的单测代码覆盖率,重构近 80% 代码,从服务延迟近 10 小时优化至最大分钟级延迟,并针对不同场景提供灵活的参数优化,通过 DevOps 系统可以灵活修改,同时基于云监控系统提供了多个服务组件的监控能力,可以先于客户发现问题,也包括提供三板斧应对突发请求。
稳定性,尤其是当业务达到10W~100W节点
负责云运维平台中监控 Agent 设计、实现、运维,通过 C 语言实现资源占用极低,支持 x86 ARM 不同平台,提供 1.3K+ 基础监控指标,包括了基础 OS、Nginx HAProxy MySQL 等通用组件,利用标准输出、StatsD 协议等开放业务对接接口,以插件方式提高灵活性,维护丰富的文档,有效支撑 SRE、对象存储、网络等业务团队的日常运维。同时通过 cgroup 限制资源、低权限用户、加密等保证了服务安全可靠,采用金丝雀发布方式,达成现网 100W+ 节点无故障运行。
负责站点监控整体方案设计、实现、运维,通过服务层+调度层+执行层三层方案保证了整体架构的灵活性,其中服务层保存任务信息负责接收用户请求并下发任务;调度层通过 RAFT 协议实现 Region 级别的高可用和一致性,同时提供了负载均衡能力;执行层利用 C 提高并行处理能力,单节点可以达到 10W 主机监控。并通过开源普罗进行自身监控,从而保证提前发现故障。
自研分布式数据库 OceanBase 运维,搭建,系统调优,问题排查;口碑数据库系统搭建,方案设计,业务优化;支付宝核心系统去 Oracle 方案设计;双十一、双十二、春节红包等项目压测、调优、问题排查。