مهندس تقييم وكيل مستقل
Mindrift
صاحب عمل نشط
نشرت قبل 3 ساعات
أرسل لي وظائف مثل هذه
الجنسية
أي جنسية
جنس
غير مذكور
عدد الشواغر
1 عدد الشواغر
الوصف الوظيفي
الأدوار والمسؤوليات
نحن نبني مجموعة بيانات لتقييم وكلاء البرمجة بالذكاء الاصطناعي حول مدى جودة نموذج التعامل مع المهام الواقعية للمطورين. ستقوم بإنشاء مهام صعبة ومعايير تقييم ضمن بيئات محاكاة واقعية:
- بناء شركات افتراضية تتبع خطة عالية المستوى - قاعدة الكود، والبنية التحتية، والسياق (المحادثات، الوثائق، التذاكر) التي تشكل بيئة واقعية مع تاريخ التطوير
- تجميع ومعايرة المهام من حالات متوسطة للشركة الافتراضية: صياغة التوجيه، تحديد معايير التقييم، وضمان أن تكون المهمة قابلة للحل وأن يكون التقييم عادلاً
- تصميم مهام موضوعة في بيئات معزولة - محاكاة لمحطة عمل مطور: جهاز Linux مع أدوات تطوير (terminal, CLI)، خوادم MCP (مستودع، متتبع المهام، مراسل، وثائق، إلخ)، وقاعدة كود تطبيق ويب حقيقية
- كتابة اختبارات تقبل جميع الحلول الصحيحة وترفض الحلول غير الصحيحة - ليست صارمة للغاية (تكسر عند الاقترابات الصحيحة) ولا متساهلة للغاية (تمرر السيئة)
- التكرار مع وكيل الذكاء الاصطناعي على الاختبارات - التحقق من أنها تلتقط المشكلات الحقيقية، لا تفوت الحلول السيئة، ولا تكسر على الجيدة
- مراجعة الكود المكتوب بواسطة الوكلاء، تحليل سبب فشل أو نجاح الوكيل، وتصميم حالات حافة وسيناريوهات عدائية
- التكرار بناءً على الملاحظات من مراجعي ضمان الجودة الخبراء الذين يقيمون عملك وفقًا لمعايير الجودة
ما ليس هذا
- ليس تصنيف البيانات
- ليس هندسة التوجيه
- ليس كتابة الكود من الصفر - الوكيل يكتب معظم الكود؛ أنت تقود وتقوم بالتقييم
جزء كبير من العمل يتم مع الذكاء الاصطناعي - من الصعب جدًا إنشاء مهام تتحدى النماذج المتقدمة دون استخدام النماذج المتقدمة.
الملف الشخصي المطلوب للمرشحين
تعتبر هذه الفرصة مناسبة لمطوري البرمجيات ذوي الخبرة، مهندسي البرمجيات، و/أو متخصصي أتمتة الاختبار المفتوحين لمشاريع بدوام جزئي، غير دائمة. من المثالي أن يكون لدى المساهمين:
- درجة في علوم الكمبيوتر، هندسة البرمجيات، أو المجالات ذات الصلة
- 5+ سنوات في تطوير البرمجيات، بشكل أساسي Python (FastAPI، pytest، async/await، subprocess، عمليات الملفات)
- خلفية في تطوير الواجهة الكاملة، مع خبرة في بناء واجهات تعتمد على React (JavaScript/TypeScript) وأنظمة خلفية قوية
- خبرة في كتابة الاختبارات (وظيفية، تكامل وليس فقط تشغيلها)
- حاويات Docker، ومعرفة بأدوات البنية التحتية (Postgres، Kafka، Redis)
- فهم CI/CD (GitHub Actions كمستخدم: المشغلات، الملصقات، قراءة النتائج)
- إجادة اللغة الإنجليزية - B2
القطاع المهني للشركة
- إنترنت
- التجارة الإلكترونية
- دوتكوم
المجال الوظيفي / القسم
- سوفت وير تقنية المعلومات
الكلمات الرئيسية
- مهندس تقييم وكيل مستقل
تنويه: نوكري غلف هو مجرد منصة لجمع الباحثين عن عمل وأصحاب العمل معا. وينصح المتقدمون بالبحث في حسن نية صاحب العمل المحتمل بشكل مستقل. نحن لا نؤيد أي طلبات لدفع الأموال وننصح بشدة ضد تبادل المعلومات الشخصية أو المصرفية ذات الصلة. نوصي أيضا زيارة نصائح أمنية للمزيد من المعلومات. إذا كنت تشك في أي احتيال أو سوء تصرف ، راسلنا عبر البريد الإلكتروني abuse@naukrigulf.com
Mindrift
Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems. Participation is project-based, not permanent employment.