ChatGPT ‘nin Yeni o1-preview Modelini Denedim ve Henüz Buna Geçmemeniz Gerektiğinin Nedenleri

687 okunma — 04 Ekim 2024 17:20

Merih Karaagac

OpenAI’nin son modelini herkes beğenmeyecek veya ihtiyaç duymayacak, en azından şimdilik.

Google’ın Gemini ve Anthropic’in Claude AI modelleriyle rekabet kızışırken, OpenAI kendini bir kimlik krizinin ortasında buldu. Bir zamanlar büyük dil modelleri (LLM) alanında tartışmasız lider olan şirket, şimdi zirvedeki konumunu korumak için çabalıyor. ChatGPT-4o ve 4o mini gibi yeni modeller, rekabet eden AI sohbet robotlarına olan göçü durdurdu, ancak OpenAI sürekli olarak yenilik yapmaya devam etme baskısı altında. Şirket, karmaşık akıl yürütme ve insan düşüncesini taklit etme konusunda mükemmel olan yeni bir AI modeli serisi olan o1-preview ile tam da bunu yaptı. Ne kadar iyi? Bunu öğrenmek için teste tabi tuttum.

Yeni o1-preview ChatGPT modeli nedir?

İçindekiler

OpenAI’nin o1-preview ve o1-mini , karmaşık muhakeme görevleri ve problem çözme için tasarlanmış ChatGPT’de bulunan en son modellerdir . Adlarından da anlaşılacağı gibi, bu modeller GPT-4’ün veya OpenAI’nin önceki dil modellerinin nesilsel halefleri değildir. Aslında, GPT-4o yalnızca var olmaya devam etmeyecek, aynı zamanda tüm sohbetler için varsayılan model olmaya devam edecektir.

İstemlerinize olabildiğince hızlı yanıt veren önceki modellerin aksine, o1 serisi, bir insanın düşünce sürecine benzer şekilde, sorunları düşünmek için daha fazla zaman harcamak üzere tasarlanmıştır. Bu, doğal olarak matematik ve kodlamayla ilgili istemlerde daha fazla doğruluk sağlar, ancak aşağıdaki testlerimde göstereceğim gibi gerçek dünya soruları ve senaryoları için de faydalıdır.

o1 model serisini ilk olarak Temmuz ayında, Reuters’ın Strawberry kod adlı gizli bir dahili projeye aşina araştırmacılarla röportaj yapmasıyla duyduk . Projenin amacı, şirketin yapay genel zeka (AGI) elde etme misyonuyla uyumlu olarak “derin araştırma” gerçekleştirebilen bir AI geliştirmekti. İkincisi, birden fazla konuda insanları alt edebilecek kadar zeki bir AI sistemini ifade eder. Strawberry projesinin, hala geliştirilmekte olan GPT-5’ten önce geleceği söyleniyordu.

o1, sorunları parçalara ayırıp insan gibi mantık yürütebilen OpenAI’nin en son model ailesidir.

Yeni o1 serisi gerçek AGI’ye ulaşmaktan hâlâ çok uzak — OpenAI CEO’su Sam Altman, “o1 hâlâ kusurlu, hâlâ sınırlı ve hâlâ ilk kullanımda, daha fazla zaman geçirdikten sonra olduğundan daha etkileyici görünüyor.” diye itiraf etti. Ancak, birçok kişinin matematik problemlerini veya mantıksal alıştırmaları çözmede asla başarılı olamayacağına inandığı en eski ChatGPT sürümünden bu yana büyük bir sıçrama.

o1-preview en yeni amiral gemisi modeli olsa da, çok daha yalın ve hızlı bir o1-mini de beraberinde geliyor. OpenAI, serinin kodlamada mükemmel olduğunu keşfetti, bu yüzden kodu doğru bir şekilde üretebilen ve hata ayıklayabilen ikinci bir model de yayınladı. Çoğunlukla geliştiricilere yönelik olan o1-mini, o1-preview’dan %80 daha ucuz.

o1-preview vs GPT-4o test edildi: Gerçekten daha mı iyi?

o1-preview’un önceki modellerden çok daha önde olduğuna dair şüpheleriniz varsa, iyi bir haberimiz var: chatbot yanıt vermeden önce bazen bir dakikadan fazla düşünmek için duraklıyor. Karmaşık sorunları parçalara ayırıyor ve bu da hataları düzeltmesine yardımcı oluyor

Ancak kötü haberler de var: o1 serisi genel olarak daha iyi değil. Özellikle, eski GPT-4o modeli gibi internette yeni bilgiler arayamıyor veya gelişmiş veri analizi yapamıyor. Ayrıca dosya ve resim yükleyemiyorsunuz, yani her bir istemi mümkün olduğunca fazla bilgi ve bağlamla önceden yüklemeniz gerekiyor. OpenAI, birçok ChatGPT kullanıcısının şimdilik GPT-4o’ya bağlı kalmak isteyeceğini bile kabul ediyor.

Ancak bu uyarıları bir kenara bırakırsak, performansı nasıl? Bunu öğrenmek için, OpenAI’nin en iyi iki modeline bir avuç kafa karıştırıcı ve karmaşık soru yönelttim. İşte o1-preview’ın GPT-4o’ya kıyasla durumu.

Soru 1: Kaç bacağım var?

Kolay bir soruyla başlayarak, ChatGPT’ye 4 ineğim, 3 köpeğim, 2 kedim olsaydı kaç bacağım olacağını sordum. Cevap açıkça ikiydi, GPT-4o bunu ancak 36 hayvan bacağım olacağını söyledikten sonra söyledi. Buna karşılık, o1-preview modelinin doğru (ve kendinden emin) bir şekilde iki bacağım olacağını söylemeden önce beş saniye boyunca “düşünmesini” izledim. Ayrıca sorunun bir bilmece olduğunu da kabul etti.

Aynı soruyu OpenAI’nin daha küçük GPT-4o mini modeline de sordum ve feci şekilde başarısız oldu. Sadece 38 bacağım olacağını ve benimkini hayvanların sayısına ekleyeceğini söyledi.

İstem 2: Döviz kurunun değer kaybetmesi hesaba katılarak yatırım getirisinin hesaplanması

Basit istemler yalnızca birkaç saniye düşünmeyi gerektirdiğinden, işleri bir adım öteye taşımaya karar verdim. Bu istemde, ChatGPT’den farklı getiri ve risklere sahip iki varlık arasında daha iyi yatırımı bulmasını istedim. Chatbot bu sefer yanıt vermeden önce düşünmek için 11 saniye harcadı. Bir kez daha, her adımı açıklayarak doğru yanıtı verdi.

İlginçtir ki, GPT-4o da aynı sonuca vardı ancak rakamları kendi başına hesaplamadı. Bunun yerine, hesaplamaları gerçekleştirmek için gerekli Python kodunu üretti ve bunu ChatGPT’nin gelişmiş veri analizi özelliği aracılığıyla yürüttü. Yani çıktı aynı olsa da karmaşıklık daha yüksek. Geçici bir çözüm olarak kodlamanın da oldukça muhteşem bir şekilde başarısız olma potansiyeli var, bunu yakında öğrenecektim.

Soru 3: Ev satın almak mı yoksa kiralamak mı daha iyidir?

Finansal olarak bilgili insanlarla takılırsanız, bir evi kiralamak ile satın almak arasındaki farkın, hem finansal hem de başka türlü birçok değişkeni içeren aşırı derecede ayrıştırıcı bir konu olduğunu bilirsiniz. Neyse ki, ChatGPT’den bizim için hesaplamayı yapmasını isteyebiliriz — o1-preview modeli bu soruya 37 saniyelik düşünce koydu ve 12 farklı adıma böldü.

Peşinat miktarım, faiz oranım, kiraya verirsem beklenen yatırım getirisi ve daha fazlası dahil olmak üzere birkaç rakam verdim. Bu, soruyu çok daha karmaşık hale getirdi — ChatGPT’nin önce 200.000 dolarlık peşinatla 800.000 dolarlık bir evin maliyetini hesaplaması gerekiyordu. Kalan miktar %3,5 faizle 20 yıllık bir ipotekle finanse edilecekti. Bunun yerine kiraya verirsem, 200.000 doların tamamını bir endeks fonuna yatırabilir ve kirayı ödedikten sonra kalan geliri de biriktirebilirdim.

o1-önizleme modeli, sorunun 1.000 kelimelik bir dökümüyle yanıt verdi ve bir ev satın almak yerine kiraya verirsem 20 yıl sonra net servetimin yaklaşık 716.620 dolar daha fazla olacağı sonucuna vardı.

OpenAI’nin önceki GPT-4o modeli, ileri düzey muhakeme görevlerinde o1-preview ile baş edemiyor.

Aynı istemi GPT-4o’ya beslemek çok daha hayal kırıklığı yaratan bir sonuç verdi. Model bu sorunu çözmek için Python kodu üretmeye ve çalıştırmaya çalıştı ancak üçüncü denemede başarılı olmadan önce iki kez başarısız oldu. O zaman bile yanlış yanıt verdi ve bunun yerine bir ev satın alarak para biriktirebileceğimi önerdi. Sadece hesaplamalarında bir tutarsızlığa işaret ettiğimde hatasını kabul etti.

Dahil olabilecek çok daha fazla değişken olduğundan, o1-preview’dan bir ev satın alırsam mülk değer artışı, bakım maliyetleri ve vergiler gibi faktörleri ve ayrıca her yıl ödenecek kirada potansiyel %3’lük bir artışı da göz önünde bulundurmasını istedim. Bu sefer, makul bir sonuca varmadan önce düşünmesi 142 saniye sürdü ve bence bu çok etkileyici.

ChatGPT’nin o1-preview ve o1-mini modelleri nasıl kullanılır

Tahmin edebileceğiniz gibi, o1 model serisi bol miktarda hesaplama gücü gerektirir. Ve ChatGPT’nin 2022’deki lansmanından bu yana kârsız olduğu söylentileri olduğu göz önüne alındığında, OpenAI’nin o1-preview’u bir ödeme duvarının arkasına kilitlemesi şaşırtıcı değil. Başka bir deyişle, yukarıda resmedilen açılır menüden en son modeli seçmek için bir ChatGPT Plus aboneliğine ihtiyacınız olacak.

Aslında, model o kadar pahalı ki OpenAI, aylık 20 dolarlık ödeme duvarının üstüne haftada 50 mesajlık bir sabit sınır da koydu. Bu kotayı tükettiğinizde, tek seçeneğiniz beklemek veya ikinci bir ChatGPT Plus hesabı için ödeme yapmaktır. OpenAI geçmişte, özellikle GPT-4’ün ilk tanıtıldığı zamanlarda bu tür oran sınırlamaları koymuştu, ancak bu örnek şu ana kadarki en agresif olanı.

Neyse ki, ChatGPT istemlerinin büyük çoğunluğu o1’in düşünme yeteneklerinden faydalanmıyor. Ve eğer bir programcıysanız, ChatGPT içindeki o1-mini modeli de sınırlı bir kapasitede ücretsiz plana ekleniyor.

Hayır, o1-preview modelini kullanmak için bir ChatGPT Plus aboneliği için ödeme yapmanız gerekir. Ancak o1-mini modeli ücretsiz katmanda sınırlı kapasitede mevcuttur.

Sonuç olarak, ChatGPT’nin yeni o1-preview modeli çok etkileyici ve matematik ve programlama sorularınız varsa bir göz atmaya değer. Çoğu görev veya görevlerin büyük çoğunluğu için en iyi seçim olmayabilir, ancak insan muhakemesini ve düşüncesini taklit etmeye en yakın olanıdır. Ancak, kullanıcıların büyük çoğunluğu o1-preview’in gelişmiş mantıksal muhakeme becerilerinden veya matematik yeteneklerinden yararlanmayacak, bu nedenle tam zamanlı olarak buna geçmenizi öneremem. Haftalık yanıt sınırı ve web tarama desteğinin olmaması da GPT-4o’yu kullanmaya devam edeceğim anlamına geliyor. Ve ChatGPT’yi her gün yalnızca birkaç kez kullanıyorsanız, ücretsiz bir hesapla kolayca idare edebilirsiniz.

Perplexity’nin Pro Search özelliği de birkaç ay önce çok adımlı akıl yürütmeyi uyguladı ve o da benim testlerimde etkileyici sonuçlar verdi. Eğer düşünce zinciri AI akıl yürütmesine para ödemeden bir göz atmak isterseniz, ücretsiz katmanda her birkaç saatte beş Perplexity Pro araması aldığınız için bunu denemenizi öneririm. Bunu henüz OpenAI’nin o1-preview’iyle birebir karşılaştırmadım, ancak AI alanındaki rekabetin ChatGPT’yi evrim geçirmeye zorladığı açık ve bundan sonra nereye gideceğini görmek için sabırsızlanıyorum.

Post Views: 10

chatgpt o1 preview OpenAI

Benzer İçerikler