Takipde Kalın!
Günlük gelişmeleri takip edebilmek için habertürk uygulamasını indirin
Gündem Ekonomi Dünya Spor Magazin Kadın Sağlık Yazılar Teknoloji Gastro Video Stil Resmi İlanlar

OpenAI, Aralık’ta tanıttığı o3 AI modeliyle matematik problemlerinde devrim yaratacağını duyurmuştu. Şirket, FrontierMath benchmark’ında %25’in üzerinde başarı oranı elde ettiğini iddia ederken, bağımsız testler bu rakamın gerçeği yansıtmadığını ortaya koydu. Epoch AI’nin yaptığı testler, o3’ün yalnızca %10’luk başarı gösterdiğini belirtirken, OpenAI’nin test yöntemleri ve şeffaflığı tartışma konusu haline geldi.

İDDİALAR İLE GERÇEKLER ARASINDAKİ FARK

OpenAI, o3 modelinin FrontierMath’ta rakiplerini sollayarak %25’in üzerinde başarı yakaladığını açıklamıştı. Ancak Epoch AI’nin bağımsız testleri, modelin bu benchmark’ta sadece %10 başarı elde ettiğini gösterdi. Epoch, test koşulları ve FrontierMath’ın güncellenmiş versiyonunun bu farkı açıklayabileceğini belirtti. OpenAI ise halka sunulan o3 modelinin, daha az hesaplama gücüyle ve gerçek dünya kullanımına odaklanacak şekilde optimize edildiğini savundu.

ŞEFFAFLIK VE BENCHMARK REKABETİ

OpenAI’nin o3 açıklamaları, AI sektöründe sıkça rastlanan benchmark tartışmalarını yeniden alevlendirdi. ARC Prize Foundation, halka sunulan o3 modelinin, test edilen daha güçlü versiyondan farklı olduğunu doğruladı. Ayrıca, Epoch’un OpenAI’den aldığı fonu geç açıklaması, akademik çevrelerde güvenilirlik tartışmalarını körükledi. Benzer şekilde, xAI ve Meta gibi şirketler de yanıltıcı benchmark sonuçları nedeniyle eleştirilerin hedefi olmuştu.

Şurada Paylaş!
Yazı Boyutua
Yazı Boyutua
GÜNÜN ÖNEMLİ MANŞETLERİ