التكنولوجيا والويب

التقاطع والأهمية – TechToday


قواعد بيانات المتجهات (VDBs) ونماذج اللغات الكبيرة (LLMs) مثل سلسلة GPT تكتسب أهمية. يوضح الشكل أعلاه أن كلا المفهومين بدأ يكتسب شعبية في بداية عام 2023 ، ويظهر الاتجاه أن كلا المفهومين لهما مسار تصاعدي مماثل.

البيانات هي السائدة ، والتطورات الحسابية تملي الاتجاهات التكنولوجية. بالنظر إلى الدور المحوري لقواعد بيانات المتجهات في تطبيقات الذكاء الاصطناعي المعاصرة ، لا ينبغي التقليل من أهميتها وتفاعلها.

قد يعطي المسؤولون التنفيذيون الأولوية لمشاريع الذكاء الاصطناعي التوليدية ولكنهم لا يدركون البنية التحتية التي تدعم مثل هذه المشاريع. في ضوء تطورات الذكاء الاصطناعي والتعلم الآلي ، نوضح أهمية VDBs لمشروعات LLM ونتعمق في أهمية VDBs و LLMs وتقاطعهما والتأثير التحويلي على الحوسبة الحديثة.

كيف تستخدم LLM قواعد بيانات المتجه؟

يمكن أن يتضمن التفاعل الأساسي مع نموذج لغة كبير (LLM) مثل ChatGPT العملية التالية:

  1. سيكتب المستخدم سؤاله أو بيانه في الواجهة.
  2. تتم معالجة هذا الإدخال بعد ذلك بواسطة نموذج التضمين ، وتحويله إلى زخارف متجهة تتوافق مع المحتوى الذي تريد الرجوع إليه.
  3. ثم تتم مطابقة هذا التمثيل المتجه مع قاعدة بيانات المتجه المتعلقة بالمحتوى الذي تم إنشاء التضمين منه.
  4. بناءً على ذلك ، تولد قاعدة بيانات المتجه استجابة وتقدمها للمستخدم كإجابة.
  5. ستتبع الاستعلامات اللاحقة من المستخدم نفس الطريقة: المرور عبر نموذج التضمين إلى متجهات النموذج والاستعلام عن قاعدة البيانات للعثور على متجهات مطابقة أو متشابهة. يعكس التشابه بين هذه النواقل المحتوى الأصلي الذي تشكلت منه.

أدناه ، نوضح بعض المجالات الرئيسية حيث يمكن أن تستخدم LLM قواعد بيانات المتجهات وتحقق فوائد.

تخزين Word Embeddings

غالبًا ما تستخدم LLM تضمين الكلمات مثل Word2Vec و GloVe و FastText لتمثيل الكلمات كمتجهات في مساحة متعددة الأبعاد. يمكن لقواعد بيانات المتجهات تخزين عمليات التضمين هذه وجلبها بكفاءة أثناء العمليات في الوقت الفعلي. Word2Vec و GloVe و FastText هي خوارزميات / طرق شائعة لتعلم تضمين الكلمات في معالجة اللغة الطبيعية (NLP).

التشابه الدلالي

التشابه الدلالي هو مفهوم يستخدم في معالجة اللغة الطبيعية واللغويات والعلوم المعرفية لتحديد مدى تشابه قطعتين من النص (أو الكلمات والعبارات والجمل وما إلى ذلك) من حيث معناها. يقيس تشابه المعاني أو دلالات الكلمات أو الجمل. بمجرد تمثيل الكلمات أو الجمل كمتجهات ، يمكن العثور على كلمات أو جمل متشابهة لغويًا باستخدام قواعد بيانات المتجهات. بالنظر إلى متجه الاستعلام ، يمكن لقاعدة البيانات إرجاع أقرب المتجهات بسرعة (أي الكلمات أو الجمل الأقرب لغويًا).

استرجاع فعال على نطاق واسع

قد تحتاج LLM إلى العثور على أفضل المستندات المطابقة من مجموعة كبيرة لمهام مثل استرجاع المعلومات أو التوصية. إذا تم تمثيل المستندات كمتجهات ، يمكن لقواعد بيانات المتجهات المساعدة في استرداد المستندات الأكثر صلة بسرعة.

ذاكرة الترجمة

في الترجمة الآلية ، يمكن تخزين الترجمات السابقة كمتجهات في قاعدة البيانات. عند الحاجة إلى ترجمة جملة جديدة ، يمكن الاستعلام عن جمل مماثلة في قاعدة البيانات ، ويمكن إعادة استخدام ترجماتها أو تكييفها ، مما يحسن سرعة الترجمة واتساقها.

حفلات الزفاف في الرسم البياني المعرفي

يمكن تمثيل الرسوم البيانية المعرفية باستخدام حفلات الزفاف ، حيث يتم تحويل الكيانات والعلاقات إلى ناقلات. يمكن أن تساعد قواعد بيانات المتجهات في تخزين واسترداد هذه التضمينات ، وتسهيل المهام مثل توقع الارتباط ، ودقة الكيان ، واستخراج العلاقة.

إكتشاف عيب خلقي

في مهام مثل تصنيف النص أو اكتشاف الرسائل غير المرغوب فيها ، يمكن استخدام تمثيلات المتجهات للنصوص للكشف عن الحالات الشاذة. يمكن لقواعد بيانات المتجهات تسهيل البحث الفعال عن الحالات الشاذة في مساحة عالية الأبعاد.

فيما يلي مثال أساسي على استخدام عمليات تضمين الكلمات (نوع من التمثيل المتجه للنص) لاكتشاف الحالات الشاذة في مجموعة بيانات من الجمل:

  1. جمع البيانات:
    • اجمع مجموعة من الجمل. من أجل التبسيط ، دعنا نفكر في ما يلي:
    • “القطط حيوانات أليفة رائعة” ، “الكلاب تحب لعب الجلب.” ، “الفيلة هي أكبر الحيوانات البرية.” ، “الموز غني بالبوتاسيوم.” ، “يمكن للطيور الطيران.” ، “تعيش الأسماك في الماء.”
  2. تمثيل المتجهات:
    • استخدم نموذج تضمين كلمة مدرب مسبقًا (مثل Word2Vec أو FastText) لتحويل كل جملة إلى تمثيل متجه.
  3. بناء ناقل مرجعي:
    • احسب المتجه المتوسط ​​لجميع نواقل الجملة المتعلقة بالحيوانات. يمثل هذا المتجه المتوسط ​​”النقطه الوسطى” أو النقطة المركزية للموضوع.
  4. حساب المسافات:
    • لكل متجه جملة ، احسب مسافة جيب التمام (أو أي مقياس مسافة آخر) للمتجه المرجعي.
  5. العتبة والكشف:
    • حدد عتبة المسافة. يمكن اعتبار أي متجه للجملة بمسافة أكبر من هذه العتبة من المتجه المرجعي شذوذًا.
    • في مثالنا ، الجملة “الموز غني بالبوتاسيوم”. من المحتمل أن يكون لها مسافة أكبر إلى المتجه المرجعي من الجمل الأخرى ، مع تحديدها على أنها حالة شاذة.
  6. تقييم:
    • تحقق من النتائج لتأكيد ما إذا كانت الحالات الشاذة التي تم تحديدها هي بالفعل حالات شاذة تستند إلى معرفة المجال.

تطبيقات تفاعلية

بالنسبة للتطبيقات التي تتطلب تفاعل المستخدم في الوقت الفعلي ، مثل روبوتات المحادثة أو المساعدين الافتراضيين ، يمكن لقواعد بيانات المتجه أن تضمن سرعة توليد الاستجابة ، والتي قد تعتمد على جلب السياق أو المعلومات ذات الصلة الممثلة كمتجهات.

ما هي قواعد بيانات المتجه؟

تحتوي قاعدة بيانات المتجهات على البيانات كنواقل عالية الأبعاد ، وهي تمثيلات رقمية لميزات أو خصائص محددة. في سياق نماذج اللغة الكبيرة أو معالجة اللغة الطبيعية ، يمكن أن تختلف هذه المتجهات في الأبعاد ، وتمتد من بضعة آلاف إلى عدة آلاف ، بناءً على تعقيد المعلومات وتفاصيلها. عادةً ما تنشأ هذه النواقل من تحويل أو تضمين البيانات الأولية مثل النص والصور والصوت والفيديو وما إلى ذلك.

اكتسبت قواعد بيانات المتجهات مكانة بارزة في السنوات الأخيرة بسبب صعود التعلم الآلي ، خاصة مع الاستخدام الواسع النطاق لحفلات الزفاف. تقوم عمليات تضمين المتجهات بتحويل البيانات المعقدة ، مثل النصوص والصور والبيانات غير المهيكلة ، إلى متجهات عالية الأبعاد بحيث تكون العناصر المتشابهة أقرب إلى بعضها البعض في مساحة المتجه.

لماذا تحتاج LLM إلى قواعد بيانات متجه: بحث التشابه في المتجهات عالية الأبعاد

تشير عمليات البحث عن التشابه في المساحات عالية الأبعاد إلى مشكلة العثور على عناصر في مجموعة بيانات “مشابهة” لعنصر استعلام معين عندما يتم تمثيل البيانات في مساحة متعددة الأبعاد. نوع البحث هذا شائع في مجالات مختلفة ، بما في ذلك التعلم الآلي ورؤية الكمبيوتر واسترجاع المعلومات.

قواعد البيانات التقليدية غير فعالة بشكل عام عند التعامل مع عمليات البحث عن التشابه في المساحات عالية الأبعاد. لمواجهة هذا التحدي ، تم تطوير قواعد بيانات المتجهات للفهرسة والبحث بكفاءة من خلال مجموعات واسعة من النواقل عالية الأبعاد.

لإجراء بحث تشابه في قاعدة بيانات متجه ، يجب عليك استخدام متجه استعلام يلخص معايير البحث الخاصة بك. يمكن أن ينشأ متجه الاستعلام هذا من نفس نوع البيانات مثل متجهات قاعدة البيانات أو من نوع مختلف ، مثل استخدام النص للبحث في قاعدة بيانات الصور.

الخطوة التالية هي استخدام مقياس تشابه لتحديد القرب بين متجهين في هذا الفضاء. يمكن أن يشمل ذلك مقاييس مثل تشابه جيب التمام أو المسافة الإقليدية أو مؤشر Jaccard. تقدم النتيجة عادةً قائمة بالمتجهات مرتبة حسب تشابهها مع متجه الاستعلام. بعد ذلك ، يمكنك استرداد البيانات الأولية المرتبطة بكل متجه من المصدر الأساسي أو الفهرس.

حتى الآن ، استخدمت فقط شركات التكنولوجيا الكبرى التي لديها الموارد اللازمة لإنشائها وصيانتها قواعد بيانات المتجه. نظرًا لتكلفتها المرتفعة ، يعد تحسينها بشكل صحيح أمرًا ضروريًا لضمان أعلى مستوى من الأداء.

إذا كان لديك المزيد من الأسئلة ، تواصل معنا:

ابحث عن البائعين المناسبين

ألتاي محلل صناعي في AIMultiple. لديه خلفية في الاقتصاد السياسي الدولي ، والمنظمات متعددة الأطراف ، والتعاون الإنمائي ، والسياسة العالمية ، وتحليل البيانات.

لديه خبرة في العمل في المؤسسات الخاصة والحكومية. اكتشف Altay اهتمامه بالتكنولوجيا الناشئة بعد أن رأى استخدامها الواسع للمنطقة في العديد من القطاعات والاعتراف بأهميتها للمستقبل.

حصل على درجة البكالوريوس في العلوم السياسية والإدارة العامة من جامعة بيلكنت وحصل على درجة الماجستير في السياسة الدولية من جامعة لوفين.


اكتشاف المزيد من إشراق العالم

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى