enflasyon emeklilik ötv döviz otomobil sağlık

Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir Kahramanmaraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak

Detaylı Hava Durumu

İstanbul, 19°C

açık

Samsung Yapay Zekâ Benchmark Çözümü: TRUEBenchi ile Yenilikçi Bir Adım

Samsung Yapay Zekâ Benchmark Çözümü: TRUEBenchi ile Yenilikçi Bir Adım. AI benchmarklarında öncü, güvenilir ve akıllı sonuçlar sunan inovatif bir yol.

REKLAM ALANI

Teknoloji

Yayınlama: 03.10.2025

A⁺

A^-

Samsung Electronics üretken yapay zekâ uygulamalarını ölçmek adına Samsung Research tarafından geliştirilen uygulanabilir bir benchmark olan TRUEBenchi tanıttı. Bu sistem, büyük dil modellerinin (LLM’ler) günlük iş süreçlerinde nasıl performans gösterdiğini değerlendirirken gerçekçi bir metrik seti sunuyor ve çok dilli, çeşitli diyalog senaryolarıyla zenginleştiriliyor.

TRUEBench, içerik üretimi, veri analizi, özet çıkarma ve çeviri gibi sık kullanılan kurumsal görevleri 10 ana kategori ve 46 alt kategori altında inceleyerek güvenilir bir puanlama sunuyor. Değerlendirme süreci, insan ve yapay zekâ iş birliğine dayalı kriterlerle destekleniyor ve otomatik değerlendirme yoluyla verimlilik odaklı sonuçlar sağlıyor.

Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Gerçek dünya yapay zekâ deneyimleriyle müşterilere güçlü bir uzmanlık ve rekabet avantajı kazandırıyoruz. TRUEBench’in üretkenlik alanında standartlar koymasını ve Samsung’un liderliğini pekiştirmesini bekliyoruz” dedi. Bu çığır açan yaklaşım, mevcut kriterlerin yalnızca İngilizce odaklı tek tur soru-cevap yöntemleriyle sınırlı kalması sorununa çözüm getiriyor.

Çözümün temel farkları arasında 10 kategori ve 12 dilde çalışan 2.485 test seti, diller arası senaryolar ve uzun belgelerin özetlenmesi gibi çok yönlü görevler yer alıyor. Test setleri, modellerin gerçek dünyada hangi alanlarda nasıl çözümler üretebileceğini ortaya koyuyor. TRUEBench, kullanıcıların örtük ihtiyaçlarını da dikkate alarak yanıtların doğruluğunu ayrıntılı koşullarla değerlendiriyor ve yalnızca yüzeysel yanıtlar yerine kapsamlı hata analizleri sunuyor.

Değerlendirme süreci, insan yorumcular ve yapay zekâ arasındaki çapraz doğrulama ile güçlendirilmiştir. Öncelikle gerçek yorumcular kriterleri belirliyor; ardından yapay zekâ bu kriterleri tarıyor ve hataları ya da gereksiz kısıtlamaları tespit ediyor. Sonuç olarak, yorumcular kriterleri yeniden gözden geçirerek daha hassas bir puanlama sistemi oluşturuyorlar. Bu yaklaşım, otomatik değerlendirmelerde önyargıları azaltırken tutarlı sonuçlar elde edilmesini sağlıyor.

TRUEBench’in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face üzerinde erişilebilir durumda. Böylece kullanıcılar beş modele kadar karşılaştırma yapabilir ve performans ile verimliliği tek bakışta karşılaştırabilirler. Ayrıca, ortalama yanıt süresi verileri de paylaşılmaktadır, bu da pratik performans ve verimlilik arasındaki dengeyi net bir şekilde ortaya koyar.

Kaynak: Beyaz Haber Ajansı (BYZHA)