امبدینگ یک نمایش عددی متراکم از داده — مانند واژه، جمله، سند، تصویر یا کاربر — بهشکل یک بردار در فضای چندبعدی است. ویژگی کلیدی امبدینگ این است که اقلام دارای معنای مشابه، بردارهای نزدیک به هم در این فضا میگیرند؛ بنابراین فاصله یا زاویهی میان بردارها معیاری برای شباهت معنایی میشود.
چرا امبدینگ مهم است؟
ماشینها مستقیماً معنای متن را نمیفهمند؛ امبدینگ پلی است که دادهی انسانی را به زبان ریاضی قابلپردازش برای مدلها ترجمه میکند. این امر جستوجوی معنایی، خوشهبندی، توصیهگری و سامانههای RAG را ممکن میسازد.
کاربردها
- جستوجوی معنایی فراتر از تطبیق کلیدواژهای
- سامانههای توصیهگر بر پایهی شباهت
- بازیابی اطلاعات در معماری RAG
- خوشهبندی، دستهبندی و تشخیص ناهنجاری
سنجش شباهت
رایجترین معیار برای سنجش شباهت میان دو امبدینگ، شباهت کسینوسی (Cosine Similarity) است که زاویهی میان دو بردار را میسنجد. بردارهای امبدینگ معمولاً در یک پایگاهدادهی برداری ذخیره و با جستوجوی نزدیکترین همسایه بازیابی میشوند.
امبدینگ معنا را به مختصات تبدیل میکند؛ جایی که نزدیکی در فضا، یعنی نزدیکی در مفهوم.
GoldData LLM Cloud سرویس تولید امبدینگ برای متن فارسی و چندزبانه را ارائه میدهد که شالودهی جستوجوی معنایی و سامانههای RAG سازمانی است.