مهندس بيانات PySpark
Valuelabs
نشرت في 25 ديسبمر 25
أرسل لي وظائف مثل هذه
الخبرة
3 - 8 سنوات
موقع العمل
التعليم
بكالوريوس في العلوم(أجهزة الكمبيوتر)
الجنسية
أي جنسية
جنس
غير مذكور
عدد الشواغر
1 عدد الشواغر
الوصف الوظيفي
الأدوار والمسؤوليات
u>الدور & المسؤوليات/strong> :/u>
- تطوير خطوط بيانات: تصميم وتطوير وصيانة خطوط ETL قابلة للتوسع وعالية الأداء باستخدام PySpark على منصة بيانات Cloudera، مع ضمان سلامة البيانات ودقتها.
- استيعاب البيانات: تنفيذ وإدارة عمليات استيعاب البيانات من مجموعة متنوعة من المصادر (مثل قواعد البيانات العلائقية، واجهات برمجة التطبيقات، أنظمة الملفات) إلى بحيرة البيانات أو مستودع البيانات على CDP.
- تحويل البيانات ومعالجتها: استخدام PySpark لمعالجة وتنظيف وتحويل مجموعات البيانات الكبيرة إلى تنسيقات ذات معنى تدعم الاحتياجات التحليلية ومتطلبات الأعمال.
- تحسين الأداء: إجراء ضبط الأداء لرمز PySpark ومكونات Cloudera، وتحسين استخدام الموارد وتقليل زمن تنفيذ عمليات ETL.
- جودة البيانات والتحقق منها: تنفيذ فحوصات جودة البيانات، والمراقبة، وروتين التحقق لضمان دقة البيانات وموثوقيتها طوال خط الأنابيب.
- الأتمتة والتنظيم: أتمتة تدفقات العمل الخاصة بالبيانات باستخدام أدوات مثل Apache Oozie أو Airflow أو أدوات التنظيم المماثلة ضمن نظام Cloudera البيئي.
- المراقبة والصيانة: مراقبة أداء خطوط الأنابيب، واستكشاف المشكلات، وإجراء الصيانة الروتينية على منصة بيانات Cloudera والعمليات المرتبطة بالبيانات.
- التعاون: العمل بشكل وثيق مع مهندسي البيانات الآخرين، والمحللين، ومديري المنتجات، وغيرهم من أصحاب المصلحة لفهم متطلبات البيانات ودعم المبادرات المختلفة المعتمدة على البيانات.
- التوثيق: الحفاظ على توثيق شامل لعمليات هندسة البيانات، والرمز، وتكوينات خطوط الأنابيب.
u>المهارات التقنية:/u>
- درجة البكالوريوس أو الماجستير في علوم الكمبيوتر، هندسة البيانات، نظم المعلومات، أو مجال ذي صلة.
- 3+ سنوات من الخبرة كمهندس بيانات، مع تركيز قوي على PySpark ومنصة بيانات Cloudera /li>
- PySpark: إتقان متقدم في PySpark، بما في ذلك العمل مع RDDs وDataFrames وتقنيات التحسين.
- منصة بيانات Cloudera: خبرة قوية في مكونات منصة بيانات Cloudera (CDP)، بما في ذلك Cloudera Manager، Hive، Impala، HDFS، وHBase.
- مستودع البيانات: معرفة بمفاهيم مستودع البيانات، وأفضل ممارسات ETL، والخبرة مع أدوات SQL (مثل Hive وImpala).
- تكنولوجيات البيانات الكبيرة: إلمام بـ Hadoop وKafka وأدوات الحوسبة الموزعة الأخرى.
- التنظيم والجدولة: خبرة مع Apache Oozie، Airflow، أو أطر التنظيم المماثلة.
- البرمجة والأتمتة: مهارات قوية في البرمجة النصية في Linux.
الملف الشخصي المطلوب للمرشحين
القطاع المهني للشركة
المجال الوظيفي / القسم
الكلمات الرئيسية
- مهندس بيانات PySpark
تنويه: نوكري غلف هو مجرد منصة لجمع الباحثين عن عمل وأصحاب العمل معا. وينصح المتقدمون بالبحث في حسن نية صاحب العمل المحتمل بشكل مستقل. نحن لا نؤيد أي طلبات لدفع الأموال وننصح بشدة ضد تبادل المعلومات الشخصية أو المصرفية ذات الصلة. نوصي أيضا زيارة نصائح أمنية للمزيد من المعلومات. إذا كنت تشك في أي احتيال أو سوء تصرف ، راسلنا عبر البريد الإلكتروني abuse@naukrigulf.com