Site Reliability Engineer (SRE)

Thời gian

Toàn thời gian

Mức lương

Thỏa thuận

Địa điểm

5BT2, Mễ Trì Hạ, Mễ Trì, Nam Từ Liêm, Hà Nội

Thời gian làm việc

  • Thời gian làm việc: Thứ Hai đến Thứ Sáu
  • Giờ làm việc: 08h00 – 18h00
  • Nghỉ trưa: 12h00 – 13h15

Mô tả công việc

Reliability & Operations

  • Vận hành và tối ưu hóa khối lượng công việc AWS trên EC2, ECS/Fargate và EKS, đảm bảo độ trễ và thông lượng có thể dự đoán được dưới tải sản xuất.
  • Thiết kế kiến trúc hệ thống có tính khả dụng cao, tự phục hồi bằng cách tận dụng các tính năng của AWS như Auto Scaling Groups, Multi-AZ RDS, chuyển đổi dự phòng ALB/NLB và sao chép S3.
  • Xác định, đo lường và thực thi SLI/SLO/SLA về tính khả dụng, độ trễ (p95/p99), tỷ lệ lỗi và độ bão hòa.
  • Dẫn dắt việc lập kế hoạch năng lực, kiểm thử tải và đánh giá hiệu năng để ngăn ngừa tắc nghẽn và tối ưu hóa khả năng mở rộng.
  • Xác thực khả năng phục hồi thông qua kiểm thử hỗn loạn (chaos testing), diễn tập phục hồi thảm họa và chuyển đổi dự phòng tự động trên môi trường đa vùng khả dụng và đa khu vực.

Khả năng quan sát & Quản lý sự cố

  • Xây dựng và duy trì nền tảng quan sát bằng cách sử dụng ngăn xếp ELK (Elasticsearch, Logstash, Kibana) để ghi nhật ký tập trung và phân tích thời gian thực; tích hợp Prometheus, Grafana và CloudWatch để thu thập số liệu hệ thống và dữ liệu đo từ xa ứng dụng.
  • Phát triển các quy trình cảnh báo tự động với CloudWatch Alarms và phát hiện bất thường để giảm thời gian khắc phục sự cố (MTTR).
  • Dẫn dắt quá trình ứng phó sự cố, tiến hành phân tích nguyên nhân gốc rễ (RCA) không đổ lỗi và xác định các biện pháp phòng ngừa để liên tục cải thiện độ tin cậy của hệ thống.

Hiệu suất & Hiệu quả chi phí

  • Liên tục tối ưu hóa hiệu suất hệ thống bằng cách phân tích việc sử dụng tài nguyên, tinh chỉnh các dịch vụ AWS (RDS, ElastiCache, EKS) và đánh giá hiệu năng khối lượng công việc.
  • Áp dụng các thực tiễn FinOps để đảm bảo độ tin cậy tiết kiệm chi phí: điều chỉnh kích thước phù hợp, chính sách tự động mở rộng quy mô, quản lý vòng đời S3, áp dụng Graviton và Savings Plans.
  • Cân bằng độ tin cậy so với chi phí bằng cách sử dụng ngân sách lỗi và số liệu hiệu suất trên mỗi đô la.

Bảo mật & Tuân thủ

  • Thực thi IAM quyền tối thiểu, cách ly VPC, GuardDuty, Security Hub và vá lỗi tự động để bảo mật hệ thống sản xuất.
  • Tích hợp giám sát bảo mật và kiểm tra tuân thủ vào quy trình làm việc về độ tin cậy.

Tiêu chuẩn hóa & Chia sẻ kiến thức

  • Duy trì các sổ tay vận hành, sơ đồ kiến trúc, định nghĩa SLO/SLI và sổ tay ứng phó sự cố để đảm bảo hoạt động nhất quán.
  • Cung cấp các mẫu triển khai tiêu chuẩn (mô-đun Terraform, biểu đồ Helm) để tăng tốc độ phát hành an toàn và đáng tin cậy.
  • Thúc đẩy văn hóa SRE bằng cách tích hợp các đánh giá độ tin cậy, kỹ thuật kiểm thử hỗn loạn và thảo luận về ngân sách lỗi vào quy trình nhóm.

Kinh nghiệm & kỹ năng

  • Bằng cử nhân hoặc cao đẳng về Công nghệ thông tin, Toán học – Tin học, Điện tử & Viễn thông hoặc tương đương.
  • Tối thiểu 5 năm kinh nghiệm trong lĩnh vực Kỹ sư vận hành hệ thống (SRE).
  • Kinh nghiệm đã được chứng minh trong việc triển khai và vận hành cơ sở hạ tầng trên AWS (EC2, S3, RDS, IAM, VPC…).
  • Thành thạo Linux và quản trị hệ thống; có khả năng viết script Bash và lập trình cơ bản (Java, Python, .NET, Go…).
  • Kinh nghiệm thực tế với các công cụ CI/CD & IaC: Jenkins, GitLab CI, ArgoCD, Ansible, Terraform; quản lý artifact/repository (Nexus, JFrog, Docker Registry) và Vault Secret.
  • Thành thạo trong việc triển khai và vận hành ứng dụng trên máy ảo (VM), Docker, Kubernetes; hiểu biết tốt về kiến trúc microservices, kiến trúc monolithic và GitOps.
  • Ưu tiên có kinh nghiệm với service mesh, bộ cân bằng tải (HAProxy, Nginx, Kong), bộ nhớ cache và hệ thống hàng đợi.
  • Khả năng giám sát, phân tích và tối ưu hóa hiệu suất hệ thống.
  • Có khả năng đọc hiểu các tài liệu kỹ thuật bằng tiếng Anh; kỹ năng giao tiếp, làm việc nhóm và hợp tác đa chức năng tốt.
  • Tư duy hệ thống, chủ động trong việc cải tiến và có tinh thần trách nhiệm cao.

Quyền lợi & đãi ngộ

  • Review lương định kỳ hàng năm;
  • Chính sách thưởng tháng lương 13, thưởng 2/9, thưởng Tết dương lịch;
  • Khám sức khỏe định kỳ hàng năm;
  • Chính sách thăm hỏi toàn diện cho nhân sự: sinh nhật, kết hôn, sinh con, ốm đau;
  • Chế độ BHXH và nghỉ phép theo quy định Công ty và pháp luật;
  • Ưu đãi nội bộ: Công ty có quán cafe riêng: Chiết khấu 50% bảng giá đồ uống cho cán bộ nhân viên;
  • Các hoạt động nội bộ khác: Year End Party, Team Building, Party;

Đào tạo & giải thưởng

  • Cơ hội học hỏi, tham gia các chương trình đào tạo nội bộ về chuyên môn, được chỉ dẫn và làm việc với Ban Quản trị, các nhân sự có kinh nghiệm, tư duy chiến lược và sáng tạo từ các công ty, tập đoàn lớn như Vingroup, OneMount, Viettel, MoMo, VNPay, FPT, Tiki;
  • Giải thưởng hàng năm dành cho các sáng kiến và thành tích nổi bật.

Liên hệ

Vui lòng nhập họ và tên
Vui lòng nhập số điện thoại
Vui lòng nhập email
Vui lòng lựa chọn
Drag & Drop Files, Choose Files to Upload