مهندس نظم التشغيل/ديف أوبس رئيسي Integrant Inc

صاحب عمل نشط

نشرت قبل 7 ساعات

الخبرة

10 - 15 سنوات

موقع العمل

القاهرة - مصر

التعليم

بكالوريوس في العلوم(أجهزة الكمبيوتر)

الجنسية

أي جنسية

جنس

غير مذكور

عدد الشواغر

1 عدد الشواغر

الوصف الوظيفي

الأدوار والمسؤوليات

ما الذي ستقوم به

ما قبل البيع وتطوير الأعمال

الشراكة مع فرق المبيعات والحلول لتحديد وتأهيل الفرص الجديدة

قيادة أو دعم الأنشطة الفنية لما قبل البيع: ورش العمل الاستكشافية، ردود RFP، عروض الهندسة المعمارية

بناء وتقديم إثباتات المفاهيم (POCs) التي توضح قدرات المنصة للعملاء المحتملين

إعداد مواد تقنية عالية الجودة

التصرف كمستشار تقني موثوق خلال محادثات العملاء، مقترحًا حلولًا تتماشى مع أهداف الأعمال

تنفيذ نظم التشغيل وتطبيقات ديف أوبس في الحساب

التشغيل مباشرة داخل حسابات العملاء كمهندس نظم تشغيل/ديف أوبس رئيسي

تشغيل، واستكشاف المشاكل، وتحسين مجموعات Kubernetes ذات الجودة الإنتاجية وبيئات GPU/HPC بشكل عملي

امتلاك إدارة نظام Linux على مستوى عميق: ضبط النواة، التخزين، الشبكات، ملف تعريف الأداء

تنفيذ وصيانة أنابيب IaC، سير العمل GitOps، وأنظمة CI/CD

خدمة كنقطة تصعيد رئيسية للحوادث التشغيلية المعقدة داخل الحسابات

الهندسة المعمارية وتصميم الحلول

تصميم معماريات المنصة من البداية إلى النهاية التي تشمل بيئات HPC السحابية، والهجينة، والمحلية

تحديد نماذج عزل الأحمال، وهندسة الشبكات، واستراتيجيات التخزين للمنصات متعددة المستأجرين

التوصية والتحقق من خيارات التكنولوجيا المتوافقة مع حجم العميل، والميزانية، ونضج الفريق

إنتاج سجلات قرارات الهندسة المعمارية (ADRs)، ومخططات الحلول، وكتب التشغيل التقنية

1. الهندسة المعمارية وتصميم النظام

تصميم منصات Kubernetes متعددة المجموعات ذات الجودة الإنتاجية:

RKE2، EKS (AWS)، AKS (Azure) على نطاق المؤسسات

مجموعات مدركة لGPU: حزم NVIDIA H100 / A100 / B200

البنية التحتية السحابية الهجينة + HPC المحلية

تحديد وتوثيق:

عزل الأحمال: أسماء المساحات، تقسيم MIG، نماذج متعددة المستأجرين

الشبكات: الربط BGP، وحدات التحكم Ingress، شبكة الخدمة (Istio / Cilium)

التخزين: Longhorn، Ceph، أنظمة ملفات موزعة وذات معدل نقل عالي

2. هندسة المنصات واستراتيجية GitOps

تحديد وفرض معايير المنصة عبر دورة حياة التسليم

أدوات GitOps: إدارة المجموعات التصريحية ArgoCD، Fleet

أنابيب CI/CD: Azure DevOps، Jenkins بناء، اختبار، ترقية

البنية التحتية ككود: Terraform (الوحدات، الحالة البعيدة، مساحات العمل)، Ansible

توحيد بدء تشغيل المجموعات، دورة حياة نشر التطبيقات، ترقية البيئة (Dev QA Prod)

3. هندسة بنية تحتية AI / GPU (الكفاءة ذات الأولوية)

تصميم وتشغيل منصات الحوسبة GPU على نطاق واسع:

نشر مشغل GPU وإدارة دورة الحياة

تقسيم MIG (GPU متعدد الحالات) للأحمال متعددة المستأجرين

جدولة متقدمة: Run:AI، جدولة GPU الأصلية Kubernetes (ملحقات الأجهزة)

فهم فئات أحمال AI وتأثيراتها على البنية التحتية:

أحمال التدريب الموزعة (بيانات/نموذج/توازي خطوط الأنابيب)

خطوط أنابيب الاستدلال خادم استدلال NVIDIA Triton، تحسين TensorRT

محاذاة البنية التحتية مع مجموعة AI الكاملة:

مجموعة CUDA، cuDNN، مكتبات الاتصالات الجماعية NCCL

شبكات عالية السرعة: InfiniBand (HDR/NDR)، RoCE لـ RDMA

GPUDirect RDMA / GPUDirect Storage لطرق البيانات منخفضة الكمون

4. الرؤية والموثوقية الهندسية

تحديد وتنفيذ رؤية كاملة للبرمجيات:

المقاييس: Prometheus، Thanos (الاحتفاظ طويل الأمد، متعدد المجموعات)

السجلات: Loki، Fluent Bit

بيانات GPU: DCGM Exporter، NVIDIA Nsight Systems

بناء أطر عمل تشغيلية:

تعريفات SLO / SLA وتتبع ميزانية الأخطاء

استراتيجية تقليل الضوضاء في التنبيهات، توجيه الشدة

كتب استجابة الحوادث وكتب التشغيل في حالات الطوارئ

5. الأمن وهندسة تعددية المستأجرين

تصميم أوضاع أمان صفرية الثقة للمنصات متعددة المستأجرين

إدارة الأسرار: HashiCorp Vault، مشغل الأسرار الخارجية

الهوية والوصول: IAM، RBAC، تكامل SSO/OIDC

عزل الشبكة: NetworkPolicy، تقسيم دقيق، mTLS

مشاركة GPU الآمنة: عزل MIG، ترخيص VGPU، فرض حدود المستأجرين

6. HPC، البيانات وهندسة التخزين (الكفاءة ذات الأولوية)

فهم التخزين عالي الأداء لأحمال AI/HPC:

تخزين GPUDirect يتجاوز وحدة المعالجة المركزية لـ I/O الأصلي لـ GPU

أنظمة الملفات الموزعة: Weka (NFS/S3 عالي السرعة)، Ceph (كائنات/كتل قابلة للتوسع)

تخزين الطبقات، استراتيجيات التخزين المؤقت، وإدارة دورة حياة البيانات

حجم والتحقق من معماريات التخزين مقابل ملفات تعريف I/O للأحمال

7. القيادة التشغيلية وأنظمة Linux

قيادة استجابة الحوادث وتحليل الأسباب الجذرية (RCA) للقضايا الحرجة في الإنتاج

تحديد استراتيجيات الترقية، إجراءات إدارة التغيير، وخطط التعافي من الكوارث

كتابة وصيانة كتب التشغيل، كتب التشغيل، ومحتوى قاعدة المعرفة

دمج العمليات التنظيمية، ومتطلبات الامتثال، وسياسات الأمان في أطر العمل التشغيلية

خبرة عميقة في Linux:

ضبط النواة (حاكم CPU، NUMA، تفضيل IRQ، hugepages)

جدولة I/O للتخزين، تحسين NVMe

ضبط كومة الشبكة لـ RDMA / InfiniBand

ملف تعريف أداء النظام وتحليل الاختناقات

الملف الشخصي المطلوب للمرشحين

أنت مرتاح لتشغيل الأنظمة الإنتاجية.

لديك عمق أقوى في SysOps و HPC أكثر من عرض DevOps، وتقبل تلك الهوية

يمكنك التحول بسلاسة بين تشغيل حادث مباشر، تقديم هندسة إلى CTO، ومراجعة بيئة عرض POC

تتواصل بوضوح حول التعقيد الفني للمهندسين وأصحاب المصلحة على مستوى C

تفهم لماذا تعتبر اختيارات الأدوات المحددة مهمة (ليس فقط كيفية تكوينها) ويمكنك توضيح التبادلات في محادثات ما قبل البيع

أنت مرتاح لامتلاك النتائج عبر الأبعاد التجارية (ما قبل البيع) والتسليم (العمليات)

تزدهر في الغموض ويمكنك تحديد نطاق كلاً من POCs القصيرة وبرامج المنصة الطويلة الأجل

المطلوب

10+ سنوات في هندسة المنصات/البنية التحتية، مع وجود سنتين على الأقل في دور بمستوى المهندس المعماري

خبرة مثبتة على أرض الواقع في تشغيل Kubernetes على نطاق واسع في الإنتاج (متعددة المجموعات، متعددة المستأجرين)

خبرة كبيرة في إدارة أنظمة Linux مستوى منخفض على النواة، والشبكات، والتخزين

خبرة في بنية تحتية HPC و/أو GPU خوادم GPU الفيزيائية، NCCL، InfiniBand، أو الأقمشة عالية السرعة

خبرة ملموسة في ما قبل البيع أو مواجهة العملاء

خبرة IaC: Terraform و/أو Ansible في بيئات الإنتاج

فهم قوي لـ GitOps وأنابيب CI/CD في إعدادات المؤسسات

يفضل بشدة

خبرة مع مشغل GPU من NVIDIA، تقسيم MIG، Run:AI، أو أدوات جدولة GPU مكافئة

معرفة بالبنية التحتية لتدريب AI الموزع (PyTorch DDP، Horovod، DeepSpeed) من منظور البنية التحتية

معرفة بخطوط أنابيب نشر خادم استدلال NVIDIA Triton أو TensorRT

خبرة مع Weka، Ceph، أو تخزين GPUDirect في بيئات HPC/AI

خبرة عملية مع Vault، الأسرار الخارجية، وهندسة الشبكات ذات الثقة الصفرية

تعرض لتوفير المعادن العارية وإدارة مجموعات HPC (Slurm، PBS، أو ما يعادلها)

الشهادات (ميزة)

CKA / CKS (مدير Kubernetes معتمد / متخصص في الأمن)

RHCE / RHCA (مهندس / مهندس معماري معتمد من Red Hat)

مهندس حلول AWS / خبير مهندس حلول Azure

مساعد HashiCorp Terraform أو مساعد Vault

شهادات DLI من NVIDIA (حوسبة GPU، بنية تحتية AI)

القطاع المهني للشركة

المجال الوظيفي / القسم

الكلمات الرئيسية

  • مهندس نظم التشغيل/ديف أوبس رئيسي

تنويه: نوكري غلف هو مجرد منصة لجمع الباحثين عن عمل وأصحاب العمل معا. وينصح المتقدمون بالبحث في حسن نية صاحب العمل المحتمل بشكل مستقل. نحن لا نؤيد أي طلبات لدفع الأموال وننصح بشدة ضد تبادل المعلومات الشخصية أو المصرفية ذات الصلة. نوصي أيضا زيارة نصائح أمنية للمزيد من المعلومات. إذا كنت تشك في أي احتيال أو سوء تصرف ، راسلنا عبر البريد الإلكتروني abuse@naukrigulf.com