نتایج یک تحقیق: عملکرد مدل‌های هوش مصنوعی متا بهتر از واقعیت جلوه داده شده است

هوش مصنوعی

فناوری

دوشنبه ۱۸ فروردین ۱۴۰۴ - ۰۶:۳۷

مطالعه 1 دقیقه

امیر عبدالملکی

تبلیغات

جدیدترین مطالب

ویدیوهای کوتاه

مشاهده همه ویدئو‌ها

چطور بهترین جواب‌ها رو از ChatGPT بگیریم؟ 🤖✨

بهترین کنترل‌سنتر برای کدوم گوشی می‌شه؟ 🥇

کره زمین در برابر کیهان؛ ذره‌ای در وسعت بی‌کران! 🌍

طلا ارزشمندترین فلز جهان نیست 🥇

اکشن فیگور خودت رو بساز 👀

بهترین کابل برای انتقال تصویر چیه؟ 🤔 شاید باورت نشه! 👀

با این ترفند ارزون‌تر اسنپ بگیر 😲🚗

شادان برگشته با یه قابلیت جدید از اینستاگرام! 🎬

آیا تراشه با گیگاهرتز بالاتر حتما قوی‌تر هم هست؟ 🤔

چهارپای انقلابی کاوازاکی معرفی شد 🤖

کنترل روشنایی مانیتور با یک کلیک! 💡🖥️

این ربات اپل آیفون‌ها رو بازیافت می‌کنه ♻

چطوری توی اندروید نیم‌فاصله بزنیم؟ 🤔 مناسب تبلت‌ها 🦾

بهترین کابل برای انتقال تصویر چیه؟ 🤔 شاید باورت نشه! 👀

درصد باتری همه دستگاه‌هات رو داشته باش 🔋

برای هر کاری، مانیتور چی بخریم؟ 😊 تفاوت انواع پنل مانیتور

تعریف شما از یه گوشی اقتصادی چیه؟ 🤔

کنترل روشنایی مانیتور با یک کلیک! 💡🖥️

طلا ارزشمندترین فلز جهان نیست 🥇

این ربات اپل آیفون‌ها رو بازیافت می‌کنه ♻

کره‌ی زمین دربرابر کیهان 🌍

هدف‌گیری اسلحه با هوش مصنوعی 🔫🤯

بهترین کنترل‌سنتر برای کدوم گوشی می‌شه؟ 🥇

ایران کجاست امروز؟ همه چیز آرزو شد 🚀💰 #گرونی

گاف امنیتی تاریخی دولت آمریکا در سیگنال! ⚠️

آیا مک‌ به درد بازی می‌خوره؟ 🤔🎮

روند طراحی پلی‌استیشن 🎮

هر چی هوش مصنوعی هست رو یک‌جا داشته باش 😎

وقتی نور تبدیل به ماده می‌شود 💡

دردسر جدید ترامپ برای ایرانی‌ها 👱‍♂️

تبلیغات

پربازدیدترین مطالب

تبلیغات

ظاهراً متا نسخه‌ای خاص از مدل‌های هوش مصنوعی‌اش را صرفاً برای بنچمارک‌ها بهینه می‌کند.

تبلیغات

یکی از مدل‌های هوش مصنوعی جدید متا به‌نام Maverick در آزمون LM Arena رتبه‌ی دوم را کسب کرد. این آزمون از سوی ارزیابان انسانی انجام شده است که خروجی مدل‌ها را مقایسه و نتایج خود را اعلام می‌کنند.

اکنون به نظر می‌رسد نسخه‌ای از Maverick که متا در LM Arena به کار گرفته، با نسخه‌ای که برای توسعه‌دهندگان ارائه شده، متفاوت است.

چندین محقق هوش مصنوعی در شبکه‌ی اجتماعی ایکس اشاره کردند که متا در بیانیه‌اش گفته نسخه‌ای که در LM Arena استفاده شده، نسخه‌ای آزمایشی مخصوص مکالمه است.

نموداری در وب‌سایت رسمی Llama نشان می‌دهد که آزمایش‌های LM Arena با استفاده از نسخه‌ی Llama 4 Maverick و «بهینه‌سازی‌شده برای مکالمه» انجام شده است.

مقاله‌های مرتبط

اگر مدلی برای یک آزمون خاص تنظیم شود و نسخه‌ی معمولی‌اش در اختیار کاربران قرار بگیرد، توسعه‌دهندگان نمی‌توانند دقیقاً عملکرد مدل را در زمینه‌های مختلف پیش‌بینی کنند؛ موضوعی که می‌تواند گمراه‌کننده باشد. آزمون‌های ارزیابی، هرچند ناکافی، باید تصویری کلی از نقاط قوت و ضعف مدل را در طیف وسیعی از وظایف ارائه دهند.

متا هنوز به یافته‌ی جدید محققان واکنشی نشان نداده است.

مقاله رو دوست داشتی؟

نظرت چیه؟