أعلنت شركة رامب لابز عن حل لمشاركة الذاكرة بين عدة وكلاء، مما يقلل استهلاك الرموز بنسبة تصل إلى 65%.
أعلنت شركة Ramp Labs، المتخصصة في البنية التحتية للذكاء الاصطناعي، في 11 أبريل، عن نتائج بحثية حول "Latent Briefing"، والتي حققت مشاركة فعالة للذاكرة بين أنظمة متعددة العوامل من خلال الضغط المباشر لذاكرة التخزين المؤقت KV للنموذج واسع النطاق، مما أدى إلى تقليل استهلاك الرموز بشكل كبير دون التضحية بالدقة.
في بنى الأنظمة متعددة الوكلاء السائدة، يقوم المنسق بتقسيم المهام واستدعاء نماذج العامل بشكل متكرر. مع امتداد سلسلة الاستدلال، يتضخم استخدام الرموز بشكل كبير. تتمثل الفكرة الأساسية لـ Latent Briefing في الاستفادة من آلية الانتباه لتحديد الأجزاء الحاسمة حقًا في السياق، والتخلص مباشرة من المعلومات الزائدة في طبقة التمثيل، بدلاً من الاعتماد على ملخص LLM البطيء أو استرجاع RAG غير المستقر.
في اختبار LongBench v2 المعياري، كان أداء هذه الطريقة ملحوظًا للغاية: انخفض استهلاك الرموز المميزة في نموذج العامل بنسبة 65٪، ووصل متوسط توفير الرموز المميزة للمستندات متوسطة الطول (من 32 ألف إلى 100 ألف) إلى 49٪، وتحسنت الدقة الإجمالية بنحو 3 نقاط مئوية مقارنة بالخط الأساسي، وكان الوقت الإضافي لكل ضغط حوالي 1.7 ثانية فقط، مما حقق تسريعًا بنحو 20 مرة مقارنة بالخوارزمية الأصلية.
استخدمت التجربة Claude Sonnet 4 كمنسق، و Qwen3-14B كنموذج عامل، وغطت سيناريوهات وثائقية متنوعة مثل الأوراق الأكاديمية والوثائق القانونية والروايات والتقارير الحكومية. ووجد البحث أيضًا أن عتبة الضغط المثلى تختلف باختلاف صعوبة المهمة وطول المستند - فالمهام الصعبة مناسبة للضغط القوي لتصفية ضوضاء التفكير التخميني، في حين أن المستندات الطويلة أكثر ملاءمة للضغط المعتدل للاحتفاظ بالمعلومات الرئيسية المتناثرة.
