مهندس تقييم وكيل مستقل

Mindrift

صاحب عمل نشط

نشرت قبل 6 ساعات

الخبرة

5 - 7 سنوات

موقع العمل

السعودية - السعودية

التعليم

بكالوريوس في التكنولوجيا/ الهندسة(أي)

الجنسية

أي جنسية

جنس

غير مذكور

عدد الشواغر

1 عدد الشواغر

الوصف الوظيفي

الأدوار والمسؤوليات

نحن نبني مجموعة بيانات لتقييم وكيل الذكاء الاصطناعي كيفية تعامل نموذج مع مهام المطورين في العالم الحقيقي. سوف تقوم بإنشاء مهام صعبة ومعايير تقييم ضمن بيئات محاكاة واقعية:

  • بناء شركات افتراضية وفقًا لخطة عالية المستوى - قاعدة الكود، البنية التحتية، والسياق (المحادثات، الوثائق، التذاكر) التي تشكل بيئة واقعية مع تاريخ تطوير
  • تجميع ومعايرة المهام من الحالات الوسيطة للشركة الافتراضية: صياغة الموجه، تعريف معايير التقييم، وضمان أن تكون المهمة قابلة للحل وأن يكون التقييم عادلاً
  • تصميم المهام التي تم وضعها في بيئات معزولة - محاكيات لمحطة عمل المطور: جهاز Linux مع أدوات تطوير (محطة طرفية، CLI)، خوادم MCP (مستودع، متتبع المهام، مراسل، وثائق، إلخ)، وقاعدة كود تطبيق ويب حقيقية
  • كتابة اختبارات تقبل جميع الحلول الصحيحة وترفض الحلول غير الصحيحة - لا صارمة جدًا (تكسر على الطرق الصحيحة) ولا متساهلة جدًا (تقبل السيئة)
  • التكرار مع وكيل الذكاء الاصطناعي حول الاختبارات - التحقق من أنها تكتشف المشاكل الحقيقية، ولا تفوت الحلول السيئة، ولا تتعطل على الجيدة
  • مراجعة الكود المكتوب من قبل الوكلاء، وتحليل لماذا فشل وكيل أو نجح، وتصميم حالات حافة وسيناريوهات معادية
  • التكرار بناءً على ملاحظات من مراجعين خبراء في ضمان الجودة الذين يقيمون عملك بناءً على معايير الجودة

جزء كبير من العمل يتم مع الذكاء الاصطناعي - من الصعب جدًا إنشاء مهام تتحدى النماذج المتقدمة دون استخدام النماذج المتقدمة.

لماذا هذا صعب

  1. النماذج المتقدمة جيدة بالفعل في الترميز. إنشاء مهمة تتحدى حقًا أفضل النماذج ليس بالأمر السهل. تحتاج إلى فهم عميق لمكان فشل النماذج وما هي السيناريوهات التي تكشف الفرق بين الحل الجيد والسيء.
  2. للمهام العديد من الحلول الصحيحة. كتابة اختبارات تقبل جميع الحلول الصحيحة وترفض الحلول غير الصحيحة أصعب مما يبدو.

الملف الشخصي المطلوب للمرشحين

تعتبر هذه الفرصة مناسبة للمطورين ذوي الخبرة، مهندسي البرمجيات، و/أو متخصصي أتمتة الاختبار المفتوحين لمشاريع بدوام جزئي، غير دائمة. من المثالي أن يكون لدى المساهمين:

  • درجة في علوم الكمبيوتر، هندسة البرمجيات، أو مجالات ذات صلة
  • 5+ سنوات في تطوير البرمجيات، أساسًا Python (FastAPI، pytest، async/await، subprocess، عمليات الملفات)
  • خلفية في تطوير الواجهة الكاملة، مع خبرة في بناء واجهات تعتمد على React (JavaScript/TypeScript) وأنظمة خلفية قوية
  • خبرة في كتابة الاختبارات (وظيفية، تكامل وليس فقط تشغيلها)
  • حاويات Docker، والألفة مع أدوات البنية التحتية (Postgres، Kafka، Redis)
  • فهم CI/CD (GitHub Actions كمستخدم: المشغلات، التسميات، قراءة النتائج)
  • إجادة اللغة الإنجليزية - B2

القطاع المهني للشركة

المجال الوظيفي / القسم

الكلمات الرئيسية

  • مهندس تقييم وكيل مستقل

تنويه: نوكري غلف هو مجرد منصة لجمع الباحثين عن عمل وأصحاب العمل معا. وينصح المتقدمون بالبحث في حسن نية صاحب العمل المحتمل بشكل مستقل. نحن لا نؤيد أي طلبات لدفع الأموال وننصح بشدة ضد تبادل المعلومات الشخصية أو المصرفية ذات الصلة. نوصي أيضا زيارة نصائح أمنية للمزيد من المعلومات. إذا كنت تشك في أي احتيال أو سوء تصرف ، راسلنا عبر البريد الإلكتروني abuse@naukrigulf.com

Mindrift

Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems. Participation is project-based, not permanent employment.

https://apply.workable.com/toloka-ai/j/A65C55C33F/