OpenAI, büyük dil modellerinin "halüsinasyon" raporunu yayımladı ve mevcut değerlendirme mekanizmalarının yanlılıklarını ve önerilen çözüm yollarını işaret etti. (Önceki bilgiler: Meta'nın Zuckerberg'i boşuna çalıştırması! Bir milyar dolarlık maaşla, iki ayda üç AI dehasını kaybetti) (Arka plan bilgisi: a16z'nin en son AI 100 listesi açıklandı: Grok bir yıl içinde ilk 4'e yükseldi, Çin uygulamaları küresel olarak öne çıktı) OpenAI, bu hafta başında büyük dil modellerinin "halüsinasyon" fenomeni ile ilgili bir araştırma yayımladı ve mevcut eğitim ve değerlendirme yöntemlerinin modelin "kendinden emin tahminler" yapmasına neden olduğunu ve bilmediğini kabul etmekten kaçındığını belirtti. Raporun özeti: Değerlendirme yöntemi modeli tahmin yapmaya itiyor. OpenAI araştırma ekibi, mevcut model eğitiminde çok sayıda değerlendirme sorusunun çoktan seçmeli olarak sunulduğunu ve modelin şansı yaver giderse doğru tahminde bulunarak puan alabildiğini, oysa "bilmiyorum" yanıtının puan getirmediğini keşfetti. (Bu, testte doğru yanıtı bilmeseniz bile rastgele işaretleme yapma şansı olduğu için anlaşılır; en azından doğru cevap verme ihtimaliniz var.) Rapor, SimpleQA testini örnek olarak göstererek eski model o4-mini ile yeni model gpt-5-thinking-mini'yi karşılaştırdı: ilki biraz daha yüksek doğruluk oranına sahipken, ancak "halüsinasyon oranı" %75'ti; ikincisi sıkça feragat etmeyi tercih etmesine rağmen hata oranı büyük ölçüde düştü. OpenAI, çoğu geliştiricinin genel doğruluk oranını artırmaya odaklandığını ancak "kendinden emin hataların" kullanıcı üzerindeki etkisinin belirsizlikten bahsetmekten çok daha yüksek olduğunu vurguladı. Araştırma ekibi sorunun kökenini bir cümleyle özetledi: "Standart eğitim ve değerlendirme süreçleri modeli tahmin yapmaya ödüllendiriyor; belirsizlik olduğunda sınırlamaları kabul etmek yerine." Başka bir deyişle, halüsinasyon, modelin donanımının veya parametre ölçeğinin yetersiz olmasından değil, puanlama kurallarının modeli yüksek riskli bir strateji izlemeye yönlendirmesinden kaynaklanıyor. Doğruluk artışı halüsinasyonu ortadan kaldırmıyor. Rapor, endüstride sıkça karşılaşılan beş yanlış anlamayı ele aldı; en önemli iki nokta şunlardır: birincisi, modeli daha büyük yapmak veya daha fazla veri beslemek halüsinasyonu ortadan kaldırmak için yeterlidir; ikincisi, halüsinasyon kaçınılmaz bir yan etki olarak görülmektedir. OpenAI, gerçek dünyanın bilgi boşluklarıyla dolu olduğunu ve her ölçekli modelin "veri kıtlığı" sorularıyla karşılaşabileceğini belirtti. Gerçekten kritik olan, modelin "feragat etme" hakkına sahip olup olmadığıdır. Rapor ayrıca, küçük modellerin bazen kendi bilgi boşluklarını daha kolay fark ettiğini vurgulamaktadır; ve değerlendirme standartlarını ayarladığınızda, "mütevazı yanıtlar" için kısmi puan verip, "kendinden emin hatalar" için daha fazla puan kesildiğinde, tam boyutlu modeller de halüsinasyonu azaltabilir. OpenAI, endüstrinin "doğru cevap oranı" yerine "güvenilirlik göstergesine" geçmesini öneriyor; örneğin, hata güven düzeyinin ana KPI olarak dahil edilmesi gerektiğini, böylece modelin belirsiz durumlarda temkinli kalmasını teşvik edebileceğini belirtiyor. Finansal teknoloji sahnesi: Güven açığı riski artırıyor. Wall Street ve Silicon Valley için, halüsinasyon soyut bir akademik konu değil, doğrudan piyasa kararlarını etkileyen bir değişkendir. Kuantum fonları, yatırım bankaları ve kripto para ticaret platformları giderek daha fazla LLM'lere metin analizi, duygu analizi ve hatta otomatik raporlama için bağımlı hale geliyor. Eğer model, şirket mali rapor detayları veya sözleşme şartları üzerinde halüsinasyon yaparsa, yanlış içerik ticaret algoritmaları aracılığıyla hızla büyüyebilir ve büyük kayıplara yol açabilir. Bu nedenle, düzenleyici kurumlar ve şirketlerin risk yönetimi departmanları "model dürüstlüğü" göstergesine dikkat etmeye başlamıştır. Birçok aracı kurum, "belirsizlik yanıt oranını" iç değerlendirmeye dahil etti ve modelin bilinmeyen alanlarda "daha fazla bilgiye ihtiyaç var" şeklinde yanıt vermesini sağladı. Bu değişiklik, geliştirilen AI çözümü ne kadar etkili olursa olsun, eğer güvenilirlik etiketi sağlayamıyorsa finansal piyasada kabul görmesinin zor olacağı anlamına geliyor. Bir sonraki adım: Yüksek puan yarışmasından dürüst mühendisliğe geçiş. Son olarak, OpenAI'nin önerdiği yol, değerlendirme spesifikasyonlarını yeniden yazmaktır: birincisi, kendinden emin yanlış cevaplar için yüksek ceza belirlemek; ikincisi, belirsizliği makul bir şekilde ifade edenlere kısmi puan vermek; üçüncüsü, modelden doğrulanabilir referans kaynakları sunmasını istemektir. Araştırma ekibi, bu adımın eğitim aşamasında modeli "risk yönetimini" öğrenmeye zorlayabileceğini, yatırım portföyü teorisindeki "önce ana parayı koru" ilkesine benzer bir şekilde olduğunu ifade etmiştir. Geliştiriciler için bu, katılımcıların artık yalnızca model boyutunu karşılaştırmayacakları, aynı zamanda sınırlı hesaplama bütçesi içinde ne zaman durmaları gerektiğini doğru bir şekilde belirleyebileceklerini ifade eder; yatırımcılar ve düzenleyiciler için yeni göstergeler, daha sezgisel risk yönetimi referans noktaları sağlar. "Mütevazılık" yeni bir akademik alan haline geldikçe, AI ekosistemi puan odaklılıktan güven odaklılığa geçiyor. İlgili haberler: ETH 3600 doları aştı! BlackRock Ethereum ETF için stake başvurusu yaptı, LDO %20 arttı. BlackRock Bitcoin ETF "IBIT", tüm fonlarından daha fazla kazanç sağladı, büyüklüğü on kat olan S&P 500 ETF'sinden daha fazla kazanç sağladı. XRP, USDT'yi geçerek piyasa değeri bakımından üçüncü en büyük kripto varlık oldu! Ancak %95'lik sirkülasyon zincirinde kâr bölgesinde, 3 dolarlık seviyeleri çok önemli bir destek ve direnç noktası. Solana, yüzeysel bir refah mı? Modern coinlerin artışı yalnızca arka plandaki manipülasyonlarla mı sınırlı, on-chain döngü sona mı erdi? <OpenAI, AI halüsinasyonlarının neden meydana geldiğini açıklıyor? Değerlendirme mitini değiştirmek için üç çözüm> bu makale ilk olarak BlockTempo'da yayımlandı, "BlockTempo - En Etkili Blok Zinciri Haber Medyası".
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI, AI yanılsamalarının neden oluştuğunu nasıl açıklar? Değerlendirme mitini değiştirmek için üç çözüm.
OpenAI, büyük dil modellerinin "halüsinasyon" raporunu yayımladı ve mevcut değerlendirme mekanizmalarının yanlılıklarını ve önerilen çözüm yollarını işaret etti. (Önceki bilgiler: Meta'nın Zuckerberg'i boşuna çalıştırması! Bir milyar dolarlık maaşla, iki ayda üç AI dehasını kaybetti) (Arka plan bilgisi: a16z'nin en son AI 100 listesi açıklandı: Grok bir yıl içinde ilk 4'e yükseldi, Çin uygulamaları küresel olarak öne çıktı) OpenAI, bu hafta başında büyük dil modellerinin "halüsinasyon" fenomeni ile ilgili bir araştırma yayımladı ve mevcut eğitim ve değerlendirme yöntemlerinin modelin "kendinden emin tahminler" yapmasına neden olduğunu ve bilmediğini kabul etmekten kaçındığını belirtti. Raporun özeti: Değerlendirme yöntemi modeli tahmin yapmaya itiyor. OpenAI araştırma ekibi, mevcut model eğitiminde çok sayıda değerlendirme sorusunun çoktan seçmeli olarak sunulduğunu ve modelin şansı yaver giderse doğru tahminde bulunarak puan alabildiğini, oysa "bilmiyorum" yanıtının puan getirmediğini keşfetti. (Bu, testte doğru yanıtı bilmeseniz bile rastgele işaretleme yapma şansı olduğu için anlaşılır; en azından doğru cevap verme ihtimaliniz var.) Rapor, SimpleQA testini örnek olarak göstererek eski model o4-mini ile yeni model gpt-5-thinking-mini'yi karşılaştırdı: ilki biraz daha yüksek doğruluk oranına sahipken, ancak "halüsinasyon oranı" %75'ti; ikincisi sıkça feragat etmeyi tercih etmesine rağmen hata oranı büyük ölçüde düştü. OpenAI, çoğu geliştiricinin genel doğruluk oranını artırmaya odaklandığını ancak "kendinden emin hataların" kullanıcı üzerindeki etkisinin belirsizlikten bahsetmekten çok daha yüksek olduğunu vurguladı. Araştırma ekibi sorunun kökenini bir cümleyle özetledi: "Standart eğitim ve değerlendirme süreçleri modeli tahmin yapmaya ödüllendiriyor; belirsizlik olduğunda sınırlamaları kabul etmek yerine." Başka bir deyişle, halüsinasyon, modelin donanımının veya parametre ölçeğinin yetersiz olmasından değil, puanlama kurallarının modeli yüksek riskli bir strateji izlemeye yönlendirmesinden kaynaklanıyor. Doğruluk artışı halüsinasyonu ortadan kaldırmıyor. Rapor, endüstride sıkça karşılaşılan beş yanlış anlamayı ele aldı; en önemli iki nokta şunlardır: birincisi, modeli daha büyük yapmak veya daha fazla veri beslemek halüsinasyonu ortadan kaldırmak için yeterlidir; ikincisi, halüsinasyon kaçınılmaz bir yan etki olarak görülmektedir. OpenAI, gerçek dünyanın bilgi boşluklarıyla dolu olduğunu ve her ölçekli modelin "veri kıtlığı" sorularıyla karşılaşabileceğini belirtti. Gerçekten kritik olan, modelin "feragat etme" hakkına sahip olup olmadığıdır. Rapor ayrıca, küçük modellerin bazen kendi bilgi boşluklarını daha kolay fark ettiğini vurgulamaktadır; ve değerlendirme standartlarını ayarladığınızda, "mütevazı yanıtlar" için kısmi puan verip, "kendinden emin hatalar" için daha fazla puan kesildiğinde, tam boyutlu modeller de halüsinasyonu azaltabilir. OpenAI, endüstrinin "doğru cevap oranı" yerine "güvenilirlik göstergesine" geçmesini öneriyor; örneğin, hata güven düzeyinin ana KPI olarak dahil edilmesi gerektiğini, böylece modelin belirsiz durumlarda temkinli kalmasını teşvik edebileceğini belirtiyor. Finansal teknoloji sahnesi: Güven açığı riski artırıyor. Wall Street ve Silicon Valley için, halüsinasyon soyut bir akademik konu değil, doğrudan piyasa kararlarını etkileyen bir değişkendir. Kuantum fonları, yatırım bankaları ve kripto para ticaret platformları giderek daha fazla LLM'lere metin analizi, duygu analizi ve hatta otomatik raporlama için bağımlı hale geliyor. Eğer model, şirket mali rapor detayları veya sözleşme şartları üzerinde halüsinasyon yaparsa, yanlış içerik ticaret algoritmaları aracılığıyla hızla büyüyebilir ve büyük kayıplara yol açabilir. Bu nedenle, düzenleyici kurumlar ve şirketlerin risk yönetimi departmanları "model dürüstlüğü" göstergesine dikkat etmeye başlamıştır. Birçok aracı kurum, "belirsizlik yanıt oranını" iç değerlendirmeye dahil etti ve modelin bilinmeyen alanlarda "daha fazla bilgiye ihtiyaç var" şeklinde yanıt vermesini sağladı. Bu değişiklik, geliştirilen AI çözümü ne kadar etkili olursa olsun, eğer güvenilirlik etiketi sağlayamıyorsa finansal piyasada kabul görmesinin zor olacağı anlamına geliyor. Bir sonraki adım: Yüksek puan yarışmasından dürüst mühendisliğe geçiş. Son olarak, OpenAI'nin önerdiği yol, değerlendirme spesifikasyonlarını yeniden yazmaktır: birincisi, kendinden emin yanlış cevaplar için yüksek ceza belirlemek; ikincisi, belirsizliği makul bir şekilde ifade edenlere kısmi puan vermek; üçüncüsü, modelden doğrulanabilir referans kaynakları sunmasını istemektir. Araştırma ekibi, bu adımın eğitim aşamasında modeli "risk yönetimini" öğrenmeye zorlayabileceğini, yatırım portföyü teorisindeki "önce ana parayı koru" ilkesine benzer bir şekilde olduğunu ifade etmiştir. Geliştiriciler için bu, katılımcıların artık yalnızca model boyutunu karşılaştırmayacakları, aynı zamanda sınırlı hesaplama bütçesi içinde ne zaman durmaları gerektiğini doğru bir şekilde belirleyebileceklerini ifade eder; yatırımcılar ve düzenleyiciler için yeni göstergeler, daha sezgisel risk yönetimi referans noktaları sağlar. "Mütevazılık" yeni bir akademik alan haline geldikçe, AI ekosistemi puan odaklılıktan güven odaklılığa geçiyor. İlgili haberler: ETH 3600 doları aştı! BlackRock Ethereum ETF için stake başvurusu yaptı, LDO %20 arttı. BlackRock Bitcoin ETF "IBIT", tüm fonlarından daha fazla kazanç sağladı, büyüklüğü on kat olan S&P 500 ETF'sinden daha fazla kazanç sağladı. XRP, USDT'yi geçerek piyasa değeri bakımından üçüncü en büyük kripto varlık oldu! Ancak %95'lik sirkülasyon zincirinde kâr bölgesinde, 3 dolarlık seviyeleri çok önemli bir destek ve direnç noktası. Solana, yüzeysel bir refah mı? Modern coinlerin artışı yalnızca arka plandaki manipülasyonlarla mı sınırlı, on-chain döngü sona mı erdi? <OpenAI, AI halüsinasyonlarının neden meydana geldiğini açıklıyor? Değerlendirme mitini değiştirmek için üç çözüm> bu makale ilk olarak BlockTempo'da yayımlandı, "BlockTempo - En Etkili Blok Zinciri Haber Medyası".