نتایج یک تحقیق: عملکرد مدلهای هوش مصنوعی متا بهتر از واقعیت جلوه داده شده است
یکی از مدلهای هوش مصنوعی جدید متا بهنام Maverick در آزمون LM Arena رتبهی دوم را کسب کرد. این آزمون از سوی ارزیابان انسانی انجام شده است که خروجی مدلها را مقایسه و نتایج خود را اعلام میکنند.
اکنون به نظر میرسد نسخهای از Maverick که متا در LM Arena به کار گرفته، با نسخهای که برای توسعهدهندگان ارائه شده، متفاوت است.
چندین محقق هوش مصنوعی در شبکهی اجتماعی ایکس اشاره کردند که متا در بیانیهاش گفته نسخهای که در LM Arena استفاده شده، نسخهای آزمایشی مخصوص مکالمه است.
نموداری در وبسایت رسمی Llama نشان میدهد که آزمایشهای LM Arena با استفاده از نسخهی Llama 4 Maverick و «بهینهسازیشده برای مکالمه» انجام شده است.
اگر مدلی برای یک آزمون خاص تنظیم شود و نسخهی معمولیاش در اختیار کاربران قرار بگیرد، توسعهدهندگان نمیتوانند دقیقاً عملکرد مدل را در زمینههای مختلف پیشبینی کنند؛ موضوعی که میتواند گمراهکننده باشد. آزمونهای ارزیابی، هرچند ناکافی، باید تصویری کلی از نقاط قوت و ضعف مدل را در طیف وسیعی از وظایف ارائه دهند.
متا هنوز به یافتهی جدید محققان واکنشی نشان نداده است.
ظاهراً اولین وانت برقی تسلا سایبرتراک وارد ایران شده است تا بهزودی پلاک گذرموقت دریافت کند.
اگر جزو آن دسته از افرادی هستید که ساعتهای هوشمند با صفحه مربعی را ترجیح میدهید، در این مقاله با محصولاتی از برندهای مختلف آشنا خواهید شد.
پژوهشهای انجام شده روی دریاچه «آرال» که بر اثر انتقال آب و خشکسالی خشک شده است، تأثیر فعالیتهای انسانی بر تغییرات ساختاری زمین را نشان میدهد.
سرقتی بیسابقه، آنهم نه از بانک یا طلافروشی، بلکه از قلب کارخانهی خودروسازی کیا، به ناپدیدشدن ۹۰۰ خودرو ختم شد.
پژوهشگرها برای اولینبار توانستند ازطریق کامپیوتر کوانتومی یک عدد تصادفی واقعی تولید کنند که هیچکدام از قوانین فیزیکی قادر به پیشبینی آن نیستند.
گلکسی M56 باریکتر از همیشه با دوربین قدرتمند و امکاناتی مشابه پرچمداران بهزودی از راه میرسد.
کاربران ChatGPT پس از تبوتاب ساخت عکس به سبک استودیو جیبلی، حالا از این چتبات برای ساخت اکشن فیگور استفاده میکنند.