مهندس تقييم وكيل مستقل

Mindrift

صاحب عمل نشط

نشرت في 21 مايو

الخبرة

5 - 7 سنوات

موقع العمل

السعودية - السعودية

التعليم

بكالوريوس في العلوم(أي)

الجنسية

أي جنسية

جنس

غير مذكور

عدد الشواغر

1 عدد الشواغر

الوصف الوظيفي

الأدوار والمسؤوليات

نحن نبني مجموعة بيانات لتقييم وكلاء البرمجة بالذكاء الاصطناعي حول مدى قدرة النموذج على التعامل مع مهام المطورين في العالم الحقيقي. ستقوم بإنشاء مهام تحدي ومعايير تقييم ضمن بيئات محاكاة واقعية:

  • بناء شركات افتراضية وفقًا لخطة عالية المستوى - قاعدة الشيفرة، البنية التحتية، والسياق (المحادثات، الوثائق، التذاكر) التي تشكل بيئة واقعية مع تاريخ تطوير
  • تجميع ومعايرة المهام من الحالات المتوسطة للشركة الافتراضية: صياغة المطالبة، تحديد معايير التقييم، والتأكد من أن المهمة قابلة للحل وأن التقييم عادل
  • تصميم مهام موضوعة في بيئات معزولة - محاكاة لمحطة عمل المطور: جهاز Linux مع أدوات تطوير (الطرفية، CLI)، خوادم MCP (مستودع، متعقب المهام، مراسل، وثائق، إلخ)، وقاعدة شفرة تطبيق ويب حقيقية
  • كتابة اختبارات تقبل جميع الحلول الصحيحة وترفض الحلول غير الصحيحة - لا تكون صارمة جدًا (تكسر على الطرق الصحيحة) ولا متساهلة جدًا (تسمح بالسيئة)
  • التكرار مع وكيل الذكاء الاصطناعي حول الاختبارات - التحقق من أنها تلتقط المشكلات الحقيقية، لا تفوت الحلول السيئة، ولا تكسر على الجيدة
  • مراجعة الشيفرة المكتوبة بواسطة الوكلاء، وتحليل سبب فشل أو نجاح وكيل، وتصميم حالات حافة وسيناريوهات معادية
  • التكرار بناءً على التغذية الراجعة من مراجعي ضمان الجودة الخبراء الذين يقيمون عملك وفقًا لمعايير الجودة

جزء كبير من العمل يتم مع الذكاء الاصطناعي - من الصعب جدًا إنشاء مهام تتحدى النماذج الرائدة دون استخدام النماذج الرائدة.

strong>لماذا هذا صعب/strong>

  1. النماذج الرائدة جيدة بالفعل في البرمجة. إنشاء مهمة تتحدى حقًا أفضل النماذج ليس بالأمر السهل. تحتاج إلى فهم عميق لمكان فشل النماذج وما هي السيناريوهات التي تكشف الفرق بين الحل الجيد والحل السيئ.
  2. تحتوي المهام على العديد من الحلول الصحيحة. كتابة اختبارات تقبل جميع الحلول الصحيحة وترفض الحلول غير الصحيحة أصعب مما يبدو.

strong>كيف تعمل/strong>

تقديم مؤهلات Pass انضم إلى مشروع أكمل المهام احصل على أجر

الملف الشخصي المطلوب للمرشحين

em>يرجى تقديم سيرتك الذاتية باللغة الإنجليزية وتحديد مستوى إتقانك للغة الإنجليزية./em>

تتناسب هذه الفرصة بشكل جيد مع المطورين ذوي الخبرة، مهندسي البرمجيات، و/أو متخصصي أتمتة الاختبارات المفتوحين لمشاريع بدوام جزئي، غير دائمة. من المثالي أن يكون لدى المساهمين:

  • درجة في علوم الحاسوب، هندسة البرمجيات، أو المجالات ذات الصلة
  • 5+ سنوات في تطوير البرمجيات، بشكل أساسي Python (FastAPI، pytest، async/await، subprocess، عمليات الملف)
  • خلفية في تطوير الواجهة الكاملة، مع خبرة في بناء واجهات مستندة إلى React (JavaScript/TypeScript) وأنظمة خلفية قوية
  • خبرة في كتابة الاختبارات (وظيفية، تكامل وليس فقط تنفيذها)
  • حاويات Docker، ومعرفة بأدوات البنية التحتية (Postgres، Kafka، Redis)
  • فهم CI/CD (GitHub Actions كمستخدم: المحفزات، التسميات، قراءة النتائج)
  • إتقان اللغة الإنجليزية - B2

القطاع المهني للشركة

المجال الوظيفي / القسم

الكلمات الرئيسية

  • مهندس تقييم وكيل مستقل

تنويه: نوكري غلف هو مجرد منصة لجمع الباحثين عن عمل وأصحاب العمل معا. وينصح المتقدمون بالبحث في حسن نية صاحب العمل المحتمل بشكل مستقل. نحن لا نؤيد أي طلبات لدفع الأموال وننصح بشدة ضد تبادل المعلومات الشخصية أو المصرفية ذات الصلة. نوصي أيضا زيارة نصائح أمنية للمزيد من المعلومات. إذا كنت تشك في أي احتيال أو سوء تصرف ، راسلنا عبر البريد الإلكتروني abuse@naukrigulf.com

Mindrift

Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems. Participation is project-based, not permanent employment.

https://apply.workable.com/toloka-ai/j/BF36204FC7/