HPC运维工程师/系统工程师

提交简历
平台开发类北京市


作职责:

1.训练集群的管理和优化,作业调度系统优化开发,分布式存储系统搭建;

2.训练平台运维系统开发,运维平台管理,运维自动化,可视化开发;

职位要求:

1.2年以上工作经验,有HPC项目经验优先

2.熟悉服务器硬件系统,了解服务器的测试优化方法

3.熟练使用Linux系统,熟悉shell,python,PHP

4.熟悉常用监控软件如zabbix,ganglia,nagios的使用和开发

5.熟悉SAN,NAS,NFS等存储系统的使用和优化,对Ceph,GlusterFS,Lustre等分布式文件系统有一定了解

6.了解集群常用管理工具如ansible,puppet的使用

7.了解常用作业调度系统如slurm,torque,PBS的配置和使用

8.了解KVM虚拟化,Docker等技术