مهندس موثوقية الموقع الرائد / خبير
SITA
صاحب عمل نشط
نشرت قبل 2 ساعات
أرسل لي وظائف مثل هذه
الخبرة
8 - 13 سنوات
التعليم
بكالوريوس في العلوم(أجهزة الكمبيوتر), ماجستير في العلوم(أي)
الجنسية
أي جنسية
جنس
غير مذكور
عدد الشواغر
1 عدد الشواغر
الوصف الوظيفي
الأدوار والمسؤوليات
ماذا ستفعل
تصميم هندسة الموثوقية وصيانة الأنظمة المرنة لضمان توافر عالي وقابلية التوسع وتحمل الأخطاء. ضمان فعالية استعادة الكوارث (DR) واستراتيجيات التحويل والموثوقية الهندسية عبر البيئات. تحسين موثوقية النظام الأساسي والمراقبة والأداء عبر الأنظمة السحابية والمحلية. إنشاء وصيانة SLIs و SLOs وميزانيات الأخطاء لقياس والتحكم في موثوقية الخدمة. تحمل مسؤولية توافر الإنتاج والتخطيط للقدرة وضبط الأداء ومبادرات الموثوقية على المدى الطويل.
الأتمتة وDevOps وNetOps دفع الأتمتة لتوفير البنية التحتية والنشر والمراقبة وسير العمل التشغيلي. تطوير وتنفيذ حلول الإصلاح التلقائي والتعافي الذاتي لتقليل التدخل اليدوي. إدارة خطوط أنابيب CI/CD وإطارات البنية التحتية ككود (IaC) للنشر الآمن والقابل للتكرار. تنفيذ وإدارة استراتيجيات النشر بدون توقف (الأزرق والأخضر ، والكناري ، والدوران). دعم الأنظمة السحابية والمحتوى الحاوي بما في ذلك Kubernetes وDocker والأنظمة الموزعة. دعم أدوات NetOps ورصد الشبكات ، مع ضمان الرؤية في أداء الشبكة والأحداث وصحة العمليات.
إدارة الحوادث والمشكلات والأحداث تنفيذ إدارة الحوادث ، واستكشاف الأخطاء في الإنتاج ، وقيادة RCA/PMIR (بعد الوفاة) لانقطاع حرج. تحديد فجوات الموثوقية ، واحتقان الأداء ، والمخاطر التشغيلية بشكل استباقي. تحسين عمليات إدارة الحوادث والأحداث والمشكلات لتقليل MTTR وتحسين الكفاءة التشغيلية. تعريف وصيانة كتالوج الأحداث والعوائق وسير عمل الإصلاح. تطوير بروتوكولات استجابة الأحداث وضمان تدريب الفرق على التعامل السريع مع الحوادث.
المراقبة والمراقبة بناء وصيانة حلول المراقبة باستخدام منصات المراقبة والتسجيل والتتبع والتنبيه. تنفيذ APM والتتبع الموزع والتنبيه الاستباقي لاكتشاف المشكلات مبكرًا. دمج تليمترية الشبكة وأدوات مراقبة NetOps في مجموعة المراقبة العامة. التعاون مع أصحاب المصلحة لتحسين تغطية الأحداث والتعلم بعد الحدث. خبرة في المراقبة المساعدة بالذكاء الاصطناعي ، واكتشاف الشذوذ ، والتنبيه التنبئي.
النشر والاستعداد التشغيلي تحمل جودة نشر الإصدارات الجديدة لـ PSO. إجراء تقييمات الاستعداد التشغيلي وإدارة مخاطر النشر. ضمان الدعم للتطبيقات الجديدة وإصدارات المنصة وتغييرات البنية التحتية. التنسيق مع أصحاب المصلحة الداخليين / الخارجيين لدفع تحسين الخدمة المستمر.
التعاون عبر الوظائف العمل بشكل وثيق مع التطوير ، وهندسة المنصات ، والمنتجات ، وT&E ICE ، ومعماري دعم الخدمة لتضمين أفضل ممارسات الموثوقية. التعاون مع البائعين وفرق الهندسة لتعزيز موثوقية النظام والتميز التشغيلي. دعم تحويل المنتجات الجديدة كخبير تقني من SGS وضمان الاستعداد التشغيلي.
الملف الشخصي المطلوب للمرشحين
التعليم والمؤهلات المهنية:
- درجة البكالوريوس في علوم الكمبيوتر أو تكنولوجيا المعلومات أو الهندسة أو مجال ذي صلة. يفضل درجة الماجستير للأدوار العليا.
- شهادات ذات صلة مثل ITIL وCCNP/CCIE وأمان Palo Alto وSASE وSDWAN وJuniper Mist/Aruba وCompTIA Security+ أو مدير Kubernetes المعتمد (CKA).
- شهادات في منصات السحابة (AWS وAzure وGoogle Cloud) أو أساليب DevOps.
- شهادات في أدوات الأتمتة وIaC (Ansible وTerraform).
- شهادات في منصات المراقبة والمراقبة (Dynatrace وPrometheus وGrafana وELK).
- شهادات في ServiceNow وJira أو أدوات التشغيل الأخرى.
الخبرة:
- أكثر من 8 سنوات في عمليات تكنولوجيا المعلومات أو إدارة الخدمات أو موثوقية البنية التحتية ، بما في ذلك أدوار مثل مهندس موثوقية الموقع أو مدير المشكلة أو مهندس DevOps.
- خبرة قوية في الأنظمة ذات التوافر العالي والهندسة المرنة واستعداد DR.
- خبرة عميقة في RCA وإدارة الحوادث وPMIR وتنفيذ إصلاحات دائمة للمشكلات المتكررة.
- خبرة عملية في CI/CD والأتمتة وIaC وسير العمل للإصلاح الذاتي.
- إجادة في منصات المراقبة (APM والتسجيل والتتبع والتنبيه) ودمج تليمترية الشبكة / مراقبة NetOps.
- خبرة في تعريف وحوكمة SLIs وSLOs وميزانيات الأخطاء لتحسين موثوقية الخدمة.
- خبرة في Kubernetes وأحمال العمل الحاوية والأنظمة الموزعة.
- خبرة في إدارة النشر والاستعداد التشغيلي وتقييم المخاطر وتحسين عمليات إدارة الأحداث / المشكلات.
- تعاون قوي عبر الوظائف مع التطوير والعمليات والهندسة والمنتجات وT&E ICE وSSA.
- الإلمام بمنصات السحابة والهياكل القابلة للتوسع واستراتيجيات النشر بدون توقف.
المهارات التقنية:
البنية التحتية السحابية AWS/Azure وLinux والتخزين الافتراضي وهندسة HA/DR. الأتمتة وIaC Ansible وTerraform وCI/CD pipelines وسير عمل التعافي الذاتي. المراقبة والمراقبة APM والتسجيل والتتبع والتنبيه وDynatrace وPrometheus وGrafana وELK. NetOps مراقبة تليمترية الشبكة ومراقبة الأحداث وأدوات الرؤية التشغيلية. الحاوية والتنظيم Docker وKubernetes والأنظمة الموزعة. النشر وهندسة الإصدارات استراتيجيات بدون توقف (الأزرق والأخضر ، والكناري) ، والاستعداد التشغيلي. البرمجة والنصوص Python وBash وPowerShell للأتمتة والأدوات. هندسة الموثوقية SLIs وSLOs وميزانيات الأخطاء وتخطيط القدرة وضبط الأداء.
القطاع المهني للشركة
- تكنولوجيا المعلومات - خدمات البرمجيات
المجال الوظيفي / القسم
- سوفت وير تقنية المعلومات
الكلمات الرئيسية
- مهندس موثوقية الموقع الرائد / خبير
تنويه: نوكري غلف هو مجرد منصة لجمع الباحثين عن عمل وأصحاب العمل معا. وينصح المتقدمون بالبحث في حسن نية صاحب العمل المحتمل بشكل مستقل. نحن لا نؤيد أي طلبات لدفع الأموال وننصح بشدة ضد تبادل المعلومات الشخصية أو المصرفية ذات الصلة. نوصي أيضا زيارة نصائح أمنية للمزيد من المعلومات. إذا كنت تشك في أي احتيال أو سوء تصرف ، راسلنا عبر البريد الإلكتروني abuse@naukrigulf.com
SITA
At SITA, we keep airports moving, airlines flying smoothly, and borders open. Our technology and communication innovations power the success of the global air travel industry. You'll find us in 95% of international airports, working closely with over 2,500 transportation and government clients. Each partnership brings unique challenges, and we thrive on delivering fresh solutions and cutting-edge tech to keep operations running like clockwork. We don't just move the world forward-we're proud to be recognized as a Great Place to Work by 79% of our employees and certified in most of our growing locations. Here, we feel empowered, supported, and inspired to grow. Are you ready to love your job? The adventure begins right here, with you, at SITA. ABOUT THE ROLE & TEAM Responsible for ensuring highly reliable, scalable, and resilient production systems across cloud and on prem environments. Ensures high availability, disaster recovery readiness, and continuous improvement of service performance. Leads automation initiatives for provisioning, deployment, monitoring, and self healing to reduce manual effort and improve stability. Owns the event catalog, operational readiness, and reliability engineering practices to prevent recurrence of incidents and strengthen system resilience. Drives collaboration across Product, Engineering, T&E ICE, and Service Support Architects to ensure provider grade reliability and seamless operational integration of new releases.
https://careers.sita.aero/jobs/10468?lang=en-us&previousLocale=en-US