الوصف الوظيفي

الأدوار والمسؤوليات

نحن نبني مجموعة بيانات لتقييم وكيل الذكاء الاصطناعي كيفية تعامل نموذج مع مهام المطورين في العالم الحقيقي. سوف تقوم بإنشاء مهام صعبة ومعايير تقييم ضمن بيئات محاكاة واقعية:

بناء شركات افتراضية وفقًا لخطة عالية المستوى - قاعدة الكود، البنية التحتية، والسياق (المحادثات، الوثائق، التذاكر) التي تشكل بيئة واقعية مع تاريخ تطوير
تجميع ومعايرة المهام من الحالات الوسيطة للشركة الافتراضية: صياغة الموجه، تعريف معايير التقييم، وضمان أن تكون المهمة قابلة للحل وأن يكون التقييم عادلاً
تصميم المهام التي تم وضعها في بيئات معزولة - محاكيات لمحطة عمل المطور: جهاز Linux مع أدوات تطوير (محطة طرفية، CLI)، خوادم MCP (مستودع، متتبع المهام، مراسل، وثائق، إلخ)، وقاعدة كود تطبيق ويب حقيقية
كتابة اختبارات تقبل جميع الحلول الصحيحة وترفض الحلول غير الصحيحة - لا صارمة جدًا (تكسر على الطرق الصحيحة) ولا متساهلة جدًا (تقبل السيئة)
التكرار مع وكيل الذكاء الاصطناعي حول الاختبارات - التحقق من أنها تكتشف المشاكل الحقيقية، ولا تفوت الحلول السيئة، ولا تتعطل على الجيدة
مراجعة الكود المكتوب من قبل الوكلاء، وتحليل لماذا فشل وكيل أو نجح، وتصميم حالات حافة وسيناريوهات معادية
التكرار بناءً على ملاحظات من مراجعين خبراء في ضمان الجودة الذين يقيمون عملك بناءً على معايير الجودة

جزء كبير من العمل يتم مع الذكاء الاصطناعي - من الصعب جدًا إنشاء مهام تتحدى النماذج المتقدمة دون استخدام النماذج المتقدمة.

لماذا هذا صعب

النماذج المتقدمة جيدة بالفعل في الترميز. إنشاء مهمة تتحدى حقًا أفضل النماذج ليس بالأمر السهل. تحتاج إلى فهم عميق لمكان فشل النماذج وما هي السيناريوهات التي تكشف الفرق بين الحل الجيد والسيء.
للمهام العديد من الحلول الصحيحة. كتابة اختبارات تقبل جميع الحلول الصحيحة وترفض الحلول غير الصحيحة أصعب مما يبدو.

الملف الشخصي المطلوب للمرشحين

تعتبر هذه الفرصة مناسبة للمطورين ذوي الخبرة، مهندسي البرمجيات، و/أو متخصصي أتمتة الاختبار المفتوحين لمشاريع بدوام جزئي، غير دائمة. من المثالي أن يكون لدى المساهمين:

درجة في علوم الكمبيوتر، هندسة البرمجيات، أو مجالات ذات صلة
5+ سنوات في تطوير البرمجيات، أساسًا Python (FastAPI، pytest، async/await، subprocess، عمليات الملفات)
خلفية في تطوير الواجهة الكاملة، مع خبرة في بناء واجهات تعتمد على React (JavaScript/TypeScript) وأنظمة خلفية قوية
خبرة في كتابة الاختبارات (وظيفية، تكامل وليس فقط تشغيلها)
حاويات Docker، والألفة مع أدوات البنية التحتية (Postgres، Kafka، Redis)
فهم CI/CD (GitHub Actions كمستخدم: المشغلات، التسميات، قراءة النتائج)
إجادة اللغة الإنجليزية - B2

مهندس تقييم وكيل مستقل Mindrift

مهندس تقييم وكيل مستقل
Mindrift