الوصف الوظيفي

الأدوار والمسؤوليات

u>الدور & المسؤوليات/strong> :/u>

تطوير خطوط بيانات: تصميم وتطوير وصيانة خطوط ETL قابلة للتوسع وعالية الأداء باستخدام PySpark على منصة بيانات Cloudera، مع ضمان سلامة البيانات ودقتها.
استيعاب البيانات: تنفيذ وإدارة عمليات استيعاب البيانات من مجموعة متنوعة من المصادر (مثل قواعد البيانات العلائقية، واجهات برمجة التطبيقات، أنظمة الملفات) إلى بحيرة البيانات أو مستودع البيانات على CDP.
تحويل البيانات ومعالجتها: استخدام PySpark لمعالجة وتنظيف وتحويل مجموعات البيانات الكبيرة إلى تنسيقات ذات معنى تدعم الاحتياجات التحليلية ومتطلبات الأعمال.
تحسين الأداء: إجراء ضبط الأداء لرمز PySpark ومكونات Cloudera، وتحسين استخدام الموارد وتقليل زمن تنفيذ عمليات ETL.
جودة البيانات والتحقق منها: تنفيذ فحوصات جودة البيانات، والمراقبة، وروتين التحقق لضمان دقة البيانات وموثوقيتها طوال خط الأنابيب.
الأتمتة والتنظيم: أتمتة تدفقات العمل الخاصة بالبيانات باستخدام أدوات مثل Apache Oozie أو Airflow أو أدوات التنظيم المماثلة ضمن نظام Cloudera البيئي.
المراقبة والصيانة: مراقبة أداء خطوط الأنابيب، واستكشاف المشكلات، وإجراء الصيانة الروتينية على منصة بيانات Cloudera والعمليات المرتبطة بالبيانات.
التعاون: العمل بشكل وثيق مع مهندسي البيانات الآخرين، والمحللين، ومديري المنتجات، وغيرهم من أصحاب المصلحة لفهم متطلبات البيانات ودعم المبادرات المختلفة المعتمدة على البيانات.
التوثيق: الحفاظ على توثيق شامل لعمليات هندسة البيانات، والرمز، وتكوينات خطوط الأنابيب.

u>المهارات التقنية:/u>

درجة البكالوريوس أو الماجستير في علوم الكمبيوتر، هندسة البيانات، نظم المعلومات، أو مجال ذي صلة.
3+ سنوات من الخبرة كمهندس بيانات، مع تركيز قوي على PySpark ومنصة بيانات Cloudera /li>
PySpark: إتقان متقدم في PySpark، بما في ذلك العمل مع RDDs وDataFrames وتقنيات التحسين.
منصة بيانات Cloudera: خبرة قوية في مكونات منصة بيانات Cloudera (CDP)، بما في ذلك Cloudera Manager، Hive، Impala، HDFS، وHBase.
مستودع البيانات: معرفة بمفاهيم مستودع البيانات، وأفضل ممارسات ETL، والخبرة مع أدوات SQL (مثل Hive وImpala).
تكنولوجيات البيانات الكبيرة: إلمام بـ Hadoop وKafka وأدوات الحوسبة الموزعة الأخرى.
التنظيم والجدولة: خبرة مع Apache Oozie، Airflow، أو أطر التنظيم المماثلة.
البرمجة والأتمتة: مهارات قوية في البرمجة النصية في Linux.

مهندس بيانات PySpark
Valuelabs

الأشخاص الذين يبحثون على وظائف الوظائف التي تم البحث عنها

مهندس بيانات PySpark Valuelabs

الأشخاص الذين يبحثون على وظائف الوظائف التي تم البحث عنها

مهندس بيانات PySpark
Valuelabs