Yapay Zeka

Samsung, En “Akıllı” Ve Süratli Yapay Zekânın Hangisi Bulunduğunu Bulabileceğiniz Kontrol Aracı Duyurdu

Samsung, yapay zekâların hız ve verimliliğini ölçmek için geliştirdiği yeni kontrol aracı TRUEBench’i tanıttı.

Samsung, yapay zekâların gerçek iş ortamlarında iyi mi performans gösterdiğini ortaya koymak için TRUEBench adını verdiği yeni kontrol aracını duyurdu. Yeni kontrol aracı büyük dil modellerinin verimliliğini ölçmeye odaklanıyor.

TRUEBench, Samsung Research tarafınca iş dünyasında sıkça karşılaşılan içerik üretimi, veri analizi, özetleme ve tercüme benzer biçimde görevlerde yapay zekâların performansını kontrol etmek için geliştirildi.

Hugging Face üstünden beş değişik model aynı anda karşılaştırılabiliyor

ts

Toplam 10 kategori ve 46 alt kategoriyi kapsayan TRUEBench, insan ve yapay zekânın beraber belirlediği kriterlere nazaran otomatik testler yapıyor. Hem insanoğlu hem de yapay zekâ tarafınca belirlenen ölçütlerle meydana getirilen bu testler, sonuçların daha net ve tutarlı çıkmasına da destek oluyor.

TRUEBench’in öne çıkan özelliklerinden biri oldukca dilli senaryoları desteklemesi. Toplamda 12 dilde ve 2.485 kontrol seti üstünden meydana getirilen ölçümler, kısa komutlardan uzun metin özetlemelerine kadar değişik görevleri kapsıyor. Testler yalnızca verilen cevabın doğruluğunu değil bununla beraber kullananların dolaylı olarak ifade etmiş olduğu ihtiyaçların karşılanıp karşılanmadığını da dikkate alıyor.

TRUEBench, öteki testlerin yetersiz kalmış olduğu bölgeleri kapatmak için geliştirildi. Hugging Face’te piyasaya sürülen vasıta kullananların aynı anda beş modeli karşılaştırmasına izin veriyor. Bununla birlikte verilen yanıtların averaj uzunlukları da görülebiliyor. Bu sayede performans ve verimlilik beraber ölçülebiliyor.


Source link

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu