مهندس بيانات أول

Washmen

صاحب عمل نشط

نشرت قبل 8 ساعات

الخبرة

6 - 10 سنوات

التعليم

بكالوريوس في العلوم(أجهزة الكمبيوتر)

الجنسية

أي جنسية

جنس

غير مذكور

عدد الشواغر

1 عدد الشواغر

الوصف الوظيفي

الأدوار والمسؤوليات

وصف الوظيفة

نحن نبحث عن مهندس بيانات كبير مستقل لبناء وتوسيع بنية البيانات لدينا لدعم فرق المنتجات والهندسة والتحليلات. ستقوم بتصميم خطوط بيانات، وتحسين منصتنا للبيانات، وضمان أن تكون الفرق لديها بيانات موثوقة وعالية الجودة لدفع قرارات الأعمال.

هذه وظيفة عملية لشخص يمكنه امتلاك مجموعة هندسة البيانات الكاملة - من الإدخال إلى التحويل إلى التنسيق. ستعمل بشكل مستقل لحل التحديات المعقدة المتعلقة بالبيانات وبناء حلول قابلة للتوسع.


المسؤوليات الأساسية

تطوير خطوط البيانات & تحسينها

  • تصميم وبناء وصيانة خطوط بيانات قابلة للتوسع باستخدام Spark و Databricks
  • تطوير سير العمل ETL/ELT لمعالجة أحجام كبيرة من بيانات سلوك العملاء
  • تحسين وظائف Spark من حيث الأداء وكفاءة التكلفة والموثوقية
  • بناء حلول معالجة بيانات في الوقت الحقيقي والدفعات
  • تنفيذ فحوصات جودة البيانات والمراقبة طوال خطوط البيانات
  • ضمان حداثة البيانات والامتثال لمستويات الخدمة لحمولات التحليلات

بنية البيانات على AWS

  • تصميم وإدارة بنية البيانات على AWS (S3، Glue، EMR، Redshift)
  • تصميم وتنفيذ بنية بحيرة البيانات مع التقسيم والتحسين المناسبين
  • تكوين وتحسين AWS Glue لوظائف ETL وفهرسة البيانات
  • تحويل وظائف Glue إلى Zero ETL
  • تنفيذ أفضل الممارسات الأمنية للوصول إلى البيانات والحوكمة
  • مراقبة وتحسين تكاليف السحابة المتعلقة ببنية البيانات

نمذجة البيانات & البنية

  • تصميم وتنفيذ نماذج البيانات البُعدية للتحليلات
  • بناء مخططات نجمية/ثلجية محكمة لتحسين الاستعلامات التحليلية
  • إنشاء بيانات أسواق لمجالات الأعمال المحددة (الاحتفاظ، الحملات، المنتج)
  • ضمان قابلية التوسع والصيانة لنموذج البيانات
  • توثيق سلالة البيانات والاعتماديات والمنطق التجاري
  • تنفيذ الأبعاد المتغيرة ببطء والتتبع التاريخي

التنسيق & الأتمتة

  • بناء وصيانة تنسيق سير العمل باستخدام Airflow أو أدوات مماثلة
  • تنفيذ الجدولة والمراقبة والتنبيه لخطوط البيانات
  • إنشاء أطر تحقق من جودة البيانات الآلية
  • تصميم منطق إعادة المحاولة ومعالجة الأخطاء لخطوط الإنتاج
  • بناء خطوط CI/CD لعمليات البيانات
  • أتمتة توفير البنية التحتية باستخدام البنية التحتية كرمز

التعاون عبر الوظائف

  • الشراكة مع محلل بيانات كبير لفهم متطلبات التحليلات
  • العمل مع مدير النمو والفريق لتمكين اتخاذ القرار المبني على البيانات
  • دعم قائد CRM مع احتياجات البيانات لتنفيذ الحملات
  • التعاون مع المنتج والهندسة في تتبع الأحداث والأدوات
  • توثيق المواصفات التقنية وأفضل الممارسات للفريق
  • العمل عن كثب مع جميع الفرق، وإقامة عقود بيانات مع المهندسين لوضع البيانات بأكثر الطرق المثلى.


المؤهلات المطلوبة

المهارات الفنية الأساسية

  • Apache Spark: مستوى خبير في PySpark/Spark SQL لمعالجة البيانات على نطاق واسع - هذا غير قابل للتفاوض
  • Databricks: خبرة قوية في بناء وتحسين خطوط البيانات على منصة Databricks - هذا غير قابل للتفاوض
  • AWS: معرفة عميقة بخدمات بيانات AWS (S3، Glue، EMR، Redshift، Athena) - هذا غير قابل للتفاوض
  • نمذجة البيانات: خبرة مثبتة في تصميم نماذج بُعدية ومستودعات البيانات - هذا غير قابل للتفاوض
  • التنسيق: خبرة قوية في أدوات تنسيق سير العمل (Airflow، Prefect، أو ما شابه) - هذا غير قابل للتفاوض
  • SQL: مهارات SQL متقدمة لاستعلامات معقدة وتحسين
  • Python: مهارات برمجة قوية لمهام هندسة البيانات

الخبرة

  • 6-10 سنوات في هندسة البيانات مع التركيز على بناء منصات بيانات قابلة للتوسع
  • سجل حافل مثبت في تصميم وتنفيذ بنية البيانات من الصفر
  • خبرة في معالجة كميات كبيرة من بيانات الأحداث (مليارات السجلات)
  • خلفية في الشركات التقنية ذات النمو العالي أو المنتجات الموجهة للمستهلك
  • خبرة مع بيانات تحليلات الهواتف المحمولة/الويب مفضلة

المتطلبات التقنية

  • خبير في Apache Spark (PySpark و Spark SQL) مع خبرة في تحسين الأداء
  • خبرة عملية عميقة مع Databricks (العناقيد والوظائف والملاحظات وDelta Lake)
  • خبرة قوية في AWS: S3، Glue، EMR، Redshift، Athena، Lambda، CloudWatch
  • إجادة بالأدوات التنسيقية: Airflow، Prefect، Step Functions، أو ما شابه
  • مهارات متقدمة في نمذجة البيانات: النمذجة البُعدية، التطبيع، عدم التطبيع
  • خبرة مع تنسيقات البيانات: Parquet، Avro، ORC، Delta Lake
  • التحكم في الإصدارات باستخدام Git وممارسات CI/CD
  • البنية التحتية كرمز: Terraform، CloudFormation، أو ما شابه
  • فهم لتقنيات تدفق البيانات (Kafka، Kinesis) يعتبر ميزة

الكفاءات الأساسية

  • مستقل: أنت تجد الحلول بشكل مستقل دون توجيه مستمر
  • حل المشاكل: تقوم بتشخيص وإصلاح مشاكل خطوط البيانات المعقدة بشكل مستقل
  • مركّز على الأداء: تقوم بتحسين السرعة والتكلفة والموثوقية
  • مدفوع بالجودة: تقوم ببناء حلول قوية وقابلة للصيانة وموثقة بشكل جيد
  • عقلية الملكية: تأخذ المسؤولية من البداية إلى النهاية عن عملك
  • تعاوني: تعمل بشكل جيد مع المحللين وأصحاب المصلحة رغم أنك مستقل

مستحسن

  • شهادات Databricks (مهندس بيانات مشارك/محترف)
  • خبرة مع dbt لتحويل البيانات
  • معرفة بمنصات بيانات العملاء (Segment، mParticle، Rudderstack)
  • خبرة مع منصات تتبع الأحداث (Mixpanel، Amplitude)
  • إلمام بالبنية التحتية لتعلم الآلة وMLOps
  • خبرة في منطقة MENA أو الأسواق الناشئة
  • خلفية في خدمات حسب الطلب، الأسواق، أو الأعمال القائمة على الاشتراك
  • معرفة بهياكل البث في الوقت الحقيقي


المجال الوظيفي / القسم

الكلمات الرئيسية

تنويه: نوكري غلف هو مجرد منصة لجمع الباحثين عن عمل وأصحاب العمل معا. وينصح المتقدمون بالبحث في حسن نية صاحب العمل المحتمل بشكل مستقل. نحن لا نؤيد أي طلبات لدفع الأموال وننصح بشدة ضد تبادل المعلومات الشخصية أو المصرفية ذات الصلة. نوصي أيضا زيارة نصائح أمنية للمزيد من المعلومات. إذا كنت تشك في أي احتيال أو سوء تصرف ، راسلنا عبر البريد الإلكتروني abuse@naukrigulf.com