مهندس تقييم وكلاء مستقلين
Mindrift
صاحب عمل نشط
نشرت قبل 2 ساعات
أرسل لي وظائف مثل هذه
الجنسية
أي جنسية
جنس
غير مذكور
عدد الشواغر
1 عدد الشواغر
الوصف الوظيفي
الأدوار والمسؤوليات
نحن نبني مجموعة بيانات لتقييم وكلاء البرمجة بالذكاء الاصطناعي ومدى كفاءة النموذج في التعامل مع مهام المطورين في العالم الحقيقي. ستقوم بإنشاء مهام تحدي ومعايير تقييم ضمن بيئات محاكاة واقعية:
- بناء شركات افتراضية تتبع خطة عالية المستوى - قاعدة الشيفرة، البنية التحتية، والسياق (المحادثات، الوثائق، التذاكر) التي تشكل بيئة واقعية مع تاريخ تطوير
- تجميع ومعايرة المهام من حالات وسيطة للشركة الافتراضية: صياغة التعليمات، تحديد معايير التقييم، وضمان أن تكون المهمة قابلة للحل وأن يكون التقييم عادلاً
- تصميم مهام موضوعة في بيئات معزولة - محاكيات لمحطة عمل مطور: جهاز لينكس مع أدوات تطوير (طرفية، CLI)، خوادم MCP (مستودع، متعقب المهام، مراسل، وثائق، إلخ)، وقاعدة شيفرة تطبيق ويب حقيقي
- كتابة اختبارات تقبل جميع الحلول الصحيحة وترفض الحلول غير الصحيحة - لا تكون صارمة للغاية (تحطيم على طرق صحيحة) ولا متساهلة للغاية (تمرير الحلول السيئة)
- التكرار مع وكيل ذكاء اصطناعي على الاختبارات - التحقق من أنها تكتشف المشكلات الحقيقية، ولا تفوت الحلول السيئة، ولا تتحطم على الجيدة
- مراجعة الشيفرة المكتوبة من قبل الوكلاء، تحليل سبب فشل أو نجاح الوكيل، وتصميم حالات حافة وسيناريوهات عدائية
- التكرار بناءً على الملاحظات من مراجعي الجودة الخبراء الذين يقيمون عملك على معايير الجودة
ما هذا ليس
- ليس تصنيف بيانات
- ليس هندسة تعليمات
- ليس كتابة الشيفرة من الصفر - الوكيل يكتب معظم الشيفرة؛ أنت توجه وتقيم
جزء كبير من العمل يتم بالتعاون مع الذكاء الاصطناعي - من الصعب جدًا إنشاء مهام تتحدى النماذج المتقدمة دون استخدام النماذج المتقدمة.
لماذا هذا صعب
- النماذج المتقدمة جيدة بالفعل في البرمجة. إنشاء مهمة تتحدى حقًا أفضل النماذج ليس بالأمر التافه. تحتاج إلى فهم عميق لمكان فشل النماذج وما هي السيناريوهات التي تكشف الفرق بين الحل الجيد والسيئ.
- تحتوي المهام على العديد من الحلول الصحيحة. كتابة اختبارات تقبل جميع الحلول الصحيحة وترفض الحلول غير الصحيحة أصعب مما يبدو.
الملف الشخصي المطلوب للمرشحين
درجة في علوم الكمبيوتر، هندسة البرمجيات، أو المجالات ذات الصلة
- 5+ سنوات في تطوير البرمجيات، بشكل أساسي بايثون (FastAPI، pytest، async/await، subprocess، عمليات الملفات)
- خلفية في تطوير الواجهة الكاملة، مع خبرة في بناء واجهات تعتمد على React (JavaScript/TypeScript) وأنظمة خلفية قوية
- خبرة في كتابة الاختبارات (وظيفية، تكامل وليس فقط تشغيلها)
- حاويات Docker، والمعرفة بأدوات البنية التحتية (Postgres، Kafka، Redis)
- فهم CI/CD (GitHub Actions كمستخدم: المحفزات، التسميات، قراءة النتائج)
- إجادة اللغة الإنجليزية - B2
لا تحتاج إلى أن تكون خبيرًا في كل عنصر، ولكن يجب أن تكون مرتاحًا لقراءة والتفكير في الشيفرة عبر المكدس.
القطاع المهني للشركة
- إنترنت
- التجارة الإلكترونية
- دوتكوم
المجال الوظيفي / القسم
- سوفت وير تقنية المعلومات
الكلمات الرئيسية
- مهندس تقييم وكلاء مستقلين
تنويه: نوكري غلف هو مجرد منصة لجمع الباحثين عن عمل وأصحاب العمل معا. وينصح المتقدمون بالبحث في حسن نية صاحب العمل المحتمل بشكل مستقل. نحن لا نؤيد أي طلبات لدفع الأموال وننصح بشدة ضد تبادل المعلومات الشخصية أو المصرفية ذات الصلة. نوصي أيضا زيارة نصائح أمنية للمزيد من المعلومات. إذا كنت تشك في أي احتيال أو سوء تصرف ، راسلنا عبر البريد الإلكتروني abuse@naukrigulf.com
Mindrift
Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems. Participation is project-based, not permanent employment.
وظائف مماثلة
AI Engineer (Applied)
BlackStone eIT
- 5 - 7 سنوات
- Dubai - United Arab Emirates
مهندس برمجيات الواجهة الأمامية
Goodie AI
- 5 - 7 سنوات
- مصر - مصر
مهندس الذكاء الاصطناعي الكامل
Flatgigs
- 2 - 7 سنوات
- دبي - الإمارات العربية المتحدة
Senior Frontend Engineer
Synapse Analytics
- 5 - 7 سنوات
- Egypt - Egypt
AI Agent Engineer - AI Agents
Lucidya
- 2 - 7 سنوات
- Riyadh - Saudi Arabia