AI Çoklu Model Savaşı: Mühendislik Liderliğindeki Yarış ve Ticarileşme Zorlukları

AI alanındaki "yüz model savaşı": mühendislik temelli bir yarışma

Geçen ay, AI endüstrisinde bir "hayvanlar savaşı" yaşandı.

Bir taraf, Meta'nın açık kaynaklı özellikleri nedeniyle geliştiricilerin favorisi haline gelen Llama (Güney Amerika Devesi) modelidir. Japon Elektrik Şirketi NEC, Llama'nın makalesi ve kodunu inceledikten sonra, Japonca versiyonunu hızla geliştirdi ve Japonya'nın AI teknolojisi darboğazını çözdü.

Diğer taraf, Falcon (Şahin) adı verilen büyük bir modeldir. Bu yıl Mayıs ayında, Falcon-40B piyasaya sürüldü ve açık kaynak LLM sıralamasında en üst sıraya çıkarak llama'yı geride bıraktı.

Bu sıralama, açık kaynak model topluluğu tarafından oluşturulmuştur ve LLM yeteneklerini değerlendirmek için standartlar sunmaktadır. Sıralama temel olarak Llama ve Falcon arasında değişim göstermektedir.

Llama 2'nin piyasaya sürülmesiyle geçici olarak öne geçti, ancak Eylül başında Falcon'un 180B versiyonunu tanıtmasıyla tekrar zirveye yerleşti.

İlginç bir şekilde, Falcon'un geliştiricileri bir teknoloji şirketi değil, Birleşik Arap Emirlikleri'nin başkentindeki bir teknoloji araştırma enstitüsüdür. Hükümet yetkilileri, bu yarışmaya katılmalarının, egemen yapıyı kırmak için olduğunu belirtti.

180B versiyonunun yayınlandığı günden sonraki gün, Birleşik Arap Emirlikleri AI Bakanı, "Zaman" dergisinin "AI alanındaki en etkili 100 kişi" listesine, "AI babası" Hinton ve OpenAI'nin Altman'ı ile birlikte girdi.

Günümüzde AI alanı çok sayıda farklı projenin ortaya çıktığı bir aşamaya girmiştir. Belirli bir mali güce sahip ülkeler ve şirketler, yerel versiyon ChatGPT'yi geliştirmeye çalışıyorlar. Körfez bölgesinde, Suudi Arabistan, yerel üniversiteler için LLM eğitimi amacıyla 3000'den fazla H100 çip satın aldı.

Bir yatırımcı şikayet etti: O zamanlar internetin iş modeli yeniliklerini küçümsedim, bir engel olmadığını düşündüm. Beklenmedik bir şekilde, sert teknoloji büyük model girişimciliği hala yüzlerce model savaşına dönüşüyor.

Yüksek zorluk derecesine sahip olduğu iddia edilen sert teknolojiler, nasıl herkesin katılabileceği bir yarışmaya dönüştü?

Transformer algoritması oyunun kurallarını değiştirdi

Amerikan girişimleri, Çin teknoloji devleri ve Orta Doğu petrol baronları büyük model geliştirmeye katılabiliyorsa, bunun için ünlü "Attention Is All You Need" makalesine teşekkür etmelidirler.

2017'de, 8 Google bilim insanı bu makalede Transformer algoritmasını kamuoyuna duyurdu. Bu, AI tarihindeki en çok atıf alan üçüncü makaledir ve Transformer'ın ortaya çıkışı bu AI dalgasını tetikledi.

Mevcut çeşitli büyük modeller, büyük yankı uyandıran GPT serisi de dahil olmak üzere, Transformer temeli üzerine inşa edilmiştir.

Öncelikle, "makineleri okumaya öğretmek" her zaman kabul edilen bir akademik zorluk olmuştur. Görüntü tanımadan farklı olarak, insanlar okurken yalnızca mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da anlamaya çalışırlar. Erken dönem sinir ağları uzun metinleri işlemekte zorlanıyordu ve bağlamı anlayamıyordu.

2014 yılında, Google bilim insanı Ilya ilk büyük突破ı gerçekleştirdi. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını önemli ölçüde artırdı. RNN, sinir ağlarının bağlamı anlama yeteneğine sahip olmasını sağlayan "döngüsel tasarım"ı tanıttı.

RNN'nin ortaya çıkışı akademik camiada büyük bir tartışma başlattı, Transformer'ın yazarı Vaswani de derinlemesine araştırmalar yaptı. Ancak geliştiriciler kısa sürede RNN'nin ciddi bir eksikliği olduğunu fark ettiler: Sıralı hesaplama verimliliği düşüktür ve büyük miktarda parametreyi işlemek zordur.

2015 yılından itibaren, Shazelle ve diğerleri RNN alternatifleri geliştirmeye başladılar ve nihayetinde Transformer ürününü ortaya çıkardılar. RNN ile karşılaştırıldığında, Transformer'ın iki büyük devrimi vardır:

Birincisi, pozisyon kodlamasını döngü tasarımının yerini alacak şekilde kullanmak, paralel hesaplamayı gerçekleştirmek, eğitim verimliliğini büyük ölçüde artırmak ve AI'yı büyük model çağında ileri taşımaktır.

İkincisi, bağlamı anlama yeteneğini daha da güçlendirdi.

Transformer, birçok teknik sorunu bir seferde çözerek, NLP alanında ana akım bir çözüm haline geldi. RNN'in kurucusu Ilya bile Transformer kampına katıldı.

Diyebiliriz ki, Transformer günümüzdeki tüm büyük modellerin temel taşıdır, bu da büyük modellerin teorik araştırmalardan mühendislik sorunlarına dönüşmesini sağlamıştır.

2019'da, OpenAI'nin Transformer tabanlı geliştirdiği GPT-2 akademik dünyada büyük bir yankı uyandırdı. Google hemen ardından, yalnızca eğitim parametrelerini ve hesaplama gücünü artırarak GPT-2'yi geride bırakan daha güçlü bir Meena sundu. Transformer'ın yazarı Şahezal bu duruma derin bir şekilde etkilendi ve "Meena dünyayı yutuyor" başlıklı bir not yazdı.

Transformer'ın ortaya çıkması, akademik alandaki temel algoritma yenilik hızını yavaşlattı. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmasının anahtarları haline geldi. Belirli bir teknik yeteneğe sahip olan teknoloji şirketleri, büyük modeller geliştirebilir.

Bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde yaptığı konuşmada şunları belirtti: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şu anki üretken yapay zeka dahil olmak üzere bir dizi aracın birleşimidir. Bunlar, elektrik ve internet gibi diğer genel teknolojilere benzer şekilde genel teknolojilerdir."

OpenAI hala LLM'nin öncüsü, ancak yarı iletken analiz kuruluşları GPT-4'ün avantajının esasen mühendislik çözümlerinden kaynaklandığını düşünüyor. Açık kaynak olursa, rakipler hızla kopyalayabilir. Bu analist, diğer büyük teknoloji şirketlerinin yakında GPT-4 ile karşılaştırılabilir büyük modeller geliştirebileceğini tahmin ediyor.

Zayıf Savunma Hattı

Şu anda, "Baimo Savaşı" nesnel bir gerçek haline geldi.

Rapor, bu yıl Temmuz itibarıyla, Çin'deki büyük model sayısının 130'a ulaştığını ve ABD'deki 114'ü aştığını gösteriyor. Çeşitli mitolojik efsaneler artık yerli teknoloji şirketlerine isim vermek için yeterli değil.

Çin ve ABD dışında, diğer zengin ülkeler de "bir ülke bir model" ilkesini kısmen gerçekleştirdi: Japonya ve Birleşik Arap Emirlikleri kendi modellerini geliştirdi, Hindistan hükümeti Bhashini'yi geliştirdi, Güney Koreli internet şirketi Naver HyperClova X'i tanıttı.

Bu sahne, sanki internetin ilk dönemine, her türlü sermayenin para harcayıp alan kapladığı zamana geri dönmüş gibi.

Yukarıda belirtildiği gibi, Transformer büyük modelleri saf bir mühendislik sorununa dönüştürdü; eğer biri para ve hesaplama gücüne sahipse, geliştirme yapabilir. Ancak giriş engeli düşük olsa da, herkesin AI çağının devlerinden biri olabileceği anlamına gelmez.

Başlangıçta bahsedilen "hayvanlar savaşı" tipik bir örnek: Falcon geçici olarak önde olsa da, Meta üzerinde ne kadar etki yarattığını söylemek zor.

Şirketlerin kendi başarılarını açık kaynak haline getirmesi, hem teknolojik faydaları paylaşmak hem de toplumsal zekayı harekete geçirmek umudundadır. Her kesimden Llama'nın sürekli kullanılması ve geliştirilmesi ile Meta, bu başarıları kendi ürünlerinde uygulayabilir.

Açık kaynaklı büyük modeller için, aktif bir geliştirici topluluğu temel rekabet avantajıdır.

Meta, 2015 yılında AI laboratuvarını kurduğunda açık kaynak yolunu benimsedi. Zuckerberg, "kitlelerle iyi ilişkiler kurmanın" yolunu çok iyi biliyor.

Ekim ayında Meta, "AI versiyonu içerik üretici teşviki" etkinliği düzenledi: Llama 2 ile toplumsal sorunları çözmeye yönelik geliştiriciler, 500.000 dolar hibe alma şansına sahip olacak.

Bugün, Meta'nın Llama serisi açık kaynak LLM'lerin mihenk taşı haline geldi.

Ekim ayının başı itibarıyla, açık kaynaklı LLM sıralamasında ilk 10'da 8 tanesi Llama 2 tabanlı olarak geliştirilmiştir. Bu platformda, Llama 2 açık kaynak lisansı altında 1500'den fazla LLM bulunmaktadır.

Performansın artırılması elbette önemlidir, ancak şu anda çoğu LLM'nin GPT-4 ile hala belirgin bir farkı var.

Örneğin, son zamanlarda GPT-4, 4.41 puan ile AgentBench test sıralamasında birinci oldu. AgentBench, birden fazla üniversitenin ortaklaşa geliştirdiği, LLM'lerin çok boyutlu açık ortamlardaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılan bir yöntemdir.

Test sonuçları, ikinci olan Claude'un yalnızca 2.77 puan aldığını ve farkın belirgin olduğunu gösteriyor. O geniş kapsamlı açık kaynak LLM'lerin çoğu 1 puan civarında, hala GPT-4'ün 1/4'ünden bile az.

GPT-4'ün bu yılın Mart ayında piyasaya sürüldüğünü bilmek gerekir, bu durum dünya genelindeki diğerlerinin altı ay sonra ulaşabildiği bir sonuçtur. Bu farkı yaratan, OpenAI'nin yüksek seviyedeki bilim insanları ekibi ve uzun yıllara dayanan LLM araştırma deneyimidir.

Yani, büyük modellerin temel yeteneği parametreler değil, ekosistem inşasıdır ( açık kaynak ) veya saf çıkarım yeteneği ( kapalı kaynak ).

Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle, herkes benzer model mimarileri ve veri setleri kullandığı için çeşitli LLM'lerin performansları benzer hale gelebilir.

Bir başka daha somut zorluk ise: Midjourney dışında, görünüşe göre başka hiçbir büyük model kâr edemiyor.

Değerin Sıfır Noktası

Bu yılın Ağustos ayında, "OpenAI'nin 2024 yılının sonunda iflas etme ihtimali" başlıklı bir makale dikkat çekti. Makalenin ana fikri: OpenAI'nin para harcama hızı çok hızlı.

Metinde belirtildiği gibi, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nin kayıpları hızla arttı, 2022'de yaklaşık 540 milyon dolar kaybetti ve yalnızca Microsoft'un yatırım yapmasını beklemek zorunda kaldı.

Makale başlığı abartılı olsa da, büyük model sağlayıcılarının durumunu ortaya koyuyor: maliyetler ve gelirler ciddi şekilde dengesiz.

Yüksek maliyetler, şu anda AI ile büyük paralar kazananların sadece Nvidia olduğunu, en fazla bir de Broadcom'un eklenebileceğini gösteriyor.

Danışmanlık şirketinin tahminlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 çipi sattı. Bu, küresel teknoloji şirketleri ve araştırma kurumlarının sırayla satın aldığı verimli bir AI çipidir. Bu H100'leri üst üste koyarsak, ağırlığı 4.5 Boeing 747'ye eşdeğerdir.

NVIDIA'nin performansı buna bağlı olarak hızla yükseldi, yıllık gelir %854 arttı ve Wall Street'i şok etti. Şu anda H100 ikinci el piyasasında 40-50 bin dolara satılmakta, oysa maliyeti yalnızca yaklaşık 3000 dolar.

Yüksek hesaplama gücü maliyeti, sektörün gelişimi için bir engel haline geldi. Bir kuruluşun hesaplamalarına göre, dünya genelindeki teknoloji şirketlerinin her yıl büyük model altyapısına 200 milyar dolar harcaması bekleniyor, oysa büyük modeller her yıl en fazla 75 milyar dolar gelir üretiyor ve en az 125 milyar dolarlık bir açık bulunuyor.

Bunun yanı sıra, az sayıda istisna dışında, çoğu yazılım şirketi büyük yatırımların ardından henüz bir kâr modeli bulamadı. Hatta sektörün liderleri Microsoft ve Adobe bile çok sorunsuz bir yol izlemedi.

Microsoft'un OpenAI ile işbirliğiyle geliştirdiği AI kod oluşturma aracı GitHub Copilot, her ay 10 dolar ücret almasına rağmen, tesis maliyetleri nedeniyle Microsoft her ay 20 dolar zarar ediyor, ağır kullanıcılar ise Microsoft'un 80 dolar zarar etmesine neden oluyor. Bu nedenle, 30 dolara satılan Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.

Aynı şekilde, yeni Firefly AI aracını piyasaya süren Adobe, kullanıcıların aşırı kullanım nedeniyle şirketin zarar etmesini önlemek için hızlı bir şekilde bir puan sistemi geliştirdi. Kullanıcılar aylık puanlarını aştıklarında, Adobe hizmet hızını düşürecektir.

Microsoft ve Adobe'nin zaten net bir iş modeli olan ve çok sayıda ücretli kullanıcıya sahip yazılım devleri olduğunu bilmek gerekir. Çoğu büyük modelin en yaygın uygulama alanı hâlâ sohbet.

Inkar edilemez ki, OpenAI ve ChatGPT olmasaydı, bu yapay zeka devrimi muhtemelen gerçekleşmezdi. Ancak şu anda, büyük modellerin eğitilmesinin sağladığı değer tartışmaya açıktır.

Ayrıca, homojen rekabetin artması ve açık kaynak modellerinin çoğalmasıyla birlikte, sadece büyük model tedarikçileri daha büyük bir baskı ile karşılaşabilir.

iPhone 4'ün başarısı 45nm üretim sürecine sahip A4 işlemcisinden değil, bitki savaşları ve öfkeli kuşları oynayabilmesindendir.

GPT17.01%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 4
  • Repost
  • Share
Comment
0/400
PonziDetectorvip
· 9h ago
Bu modellerin birincilik mücadelesi anlamsız, iyi para kazanmak asıl meseledir.
View OriginalReply0
FreeRidervip
· 9h ago
Bu kadar kötü yırtıldı, kimin kaybettiği veya kazandığı önemli değil, sadece sarılmak yeter.
View OriginalReply0
MoonMathMagicvip
· 9h ago
Savaşın savaşın, kim kazanırsa o baba.
View OriginalReply0
HashRatePhilosophervip
· 9h ago
AI ile oynamak için kimin Bilgi İşlem Gücü daha fazla ona bakmak gerek.
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)