Samsung Yapay Zekâ Benchmark Çözümü: TRUEBenchi ile Yenilikçi Bir Adım. AI benchmarklarında öncü, güvenilir ve akıllı sonuçlar sunan inovatif bir yol.
Samsung Electronics üretken yapay zekâ uygulamalarını ölçmek adına Samsung Research tarafından geliştirilen uygulanabilir bir benchmark olan TRUEBenchi tanıttı. Bu sistem, büyük dil modellerinin (LLM’ler) günlük iş süreçlerinde nasıl performans gösterdiğini değerlendirirken gerçekçi bir metrik seti sunuyor ve çok dilli, çeşitli diyalog senaryolarıyla zenginleştiriliyor.
TRUEBench, içerik üretimi, veri analizi, özet çıkarma ve çeviri gibi sık kullanılan kurumsal görevleri 10 ana kategori ve 46 alt kategori altında inceleyerek güvenilir bir puanlama sunuyor. Değerlendirme süreci, insan ve yapay zekâ iş birliğine dayalı kriterlerle destekleniyor ve otomatik değerlendirme yoluyla verimlilik odaklı sonuçlar sağlıyor.
Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Gerçek dünya yapay zekâ deneyimleriyle müşterilere güçlü bir uzmanlık ve rekabet avantajı kazandırıyoruz. TRUEBench’in üretkenlik alanında standartlar koymasını ve Samsung’un liderliğini pekiştirmesini bekliyoruz” dedi. Bu çığır açan yaklaşım, mevcut kriterlerin yalnızca İngilizce odaklı tek tur soru-cevap yöntemleriyle sınırlı kalması sorununa çözüm getiriyor.
Çözümün temel farkları arasında 10 kategori ve 12 dilde çalışan 2.485 test seti, diller arası senaryolar ve uzun belgelerin özetlenmesi gibi çok yönlü görevler yer alıyor. Test setleri, modellerin gerçek dünyada hangi alanlarda nasıl çözümler üretebileceğini ortaya koyuyor. TRUEBench, kullanıcıların örtük ihtiyaçlarını da dikkate alarak yanıtların doğruluğunu ayrıntılı koşullarla değerlendiriyor ve yalnızca yüzeysel yanıtlar yerine kapsamlı hata analizleri sunuyor.
Değerlendirme süreci, insan yorumcular ve yapay zekâ arasındaki çapraz doğrulama ile güçlendirilmiştir. Öncelikle gerçek yorumcular kriterleri belirliyor; ardından yapay zekâ bu kriterleri tarıyor ve hataları ya da gereksiz kısıtlamaları tespit ediyor. Sonuç olarak, yorumcular kriterleri yeniden gözden geçirerek daha hassas bir puanlama sistemi oluşturuyorlar. Bu yaklaşım, otomatik değerlendirmelerde önyargıları azaltırken tutarlı sonuçlar elde edilmesini sağlıyor.
TRUEBench’in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face üzerinde erişilebilir durumda. Böylece kullanıcılar beş modele kadar karşılaştırma yapabilir ve performans ile verimliliği tek bakışta karşılaştırabilirler. Ayrıca, ortalama yanıt süresi verileri de paylaşılmaktadır, bu da pratik performans ve verimlilik arasındaki dengeyi net bir şekilde ortaya koyar.
Kaynak: Beyaz Haber Ajansı (BYZHA)