Büyük model uzun metin kapasitesi 400.000 token'i aşarak AI'nın finans, hukuk gibi alanlarda uygulanmasını teşvik ediyor.

robot
Abstract generation in progress

Büyük Model Uzun Metin Yetenekleri Yarışması: 4000'den 400.000'e token, AI "okuma yeteneği" patladı

Büyük modeller, uzun metin işleme yeteneklerini şaşırtıcı bir hızla geliştiriyor. İlk başta 4000 token'dan günümüzde 400.000 token'a kadar, uzun metin yeteneği büyük model üreticileri için yeni bir standart haline gelmiş gibi görünüyor.

Uluslararası alanda, OpenAI, GPT-3.5'in bağlam girdi uzunluğunu 4 bin token'dan 16 bin token'a yükseltirken, GPT-4'ü 8 bin token'dan 32 bin token'a çıkardı. Rakibi Anthropic, bağlam uzunluğunu bir anda 100 bin token'a yükseltti. LongLLaMA, bağlam uzunluğunu 256 bin token'dan fazlasına kadar genişletti.

Ülke içinde, Ayın Karanlığı adlı büyük model girişimi tarafından piyasaya sürülen Kimi Chat, 200,000 Çince karakter girişi destekleyebilir, bu da yaklaşık 400,000 token eder. Hong Kong Çince Üniversitesi ile MIT'nin iş birliğiyle geliştirilen LongLoRA teknolojisi ise 7B modelinin metin uzunluğunu 100,000 token'a, 70B modelini ise 32,000 token'a genişletebilir.

Şu anda, OpenAI, Anthropic, Meta ve Ay'ın Karanlık Yüzü gibi birçok üst düzey büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi ana yükseltme yönü olarak belirliyor. Bu şirketler, genel olarak sermaye piyasalarının ilgisini çekiyor ve finansman ölçekleri ile değerlemeleri hızlı bir büyüme göstermekte.

Büyük model şirketleri uzun metin teknolojisine bu kadar önem veriyor, 400.000 token'lik bir atılım ne anlama geliyor? Yüzeyde, bu modelin giriş metin uzunluğunun ve okuma yeteneğinin önemli ölçüde arttığını temsil ediyor. İlk başta sadece kısa bir makale işleyebilen bir modelden, şimdi tüm bir romanı okuyabilen bir modele geçildi, modelin uygulama alanları önemli ölçüde genişledi.

Daha derin bir bakış açısıyla, uzun metin teknolojisi büyük modellerin finans, adalet, bilimsel araştırmalar gibi profesyonel alanlarda uygulanmasını teşvik ediyor. Uzun belge özetleme, okuma anlama, soru-cevap gibi yetenekler, bu alanların akıllı dönüşümünün anahtarıdır.

Ancak, model parametreleri gibi, metin uzunluğu da her zaman daha uzun olmak zorunda değildir. Araştırmalar, modelin desteklediği bağlam uzunluğu ile etkisi arasında basit bir pozitif ilişki olmadığını göstermektedir. Anahtar, modelin bağlam içeriğini nasıl etkili bir şekilde kullanabileceğidir.

Şu anda, uzun metin teknolojisinin keşfi henüz bir tıkanma noktasına ulaşmadı. Yurt içi ve yurt dışındaki büyük model şirketleri hala sürekli olarak ilerlemekte, 400.000 token belki de sadece bir başlangıçtır.

Neden büyük model şirketleri uzun metinleri "sararak" rekabet ediyor?

Ayın karanlık yüzü kurucusu Yang Zhilin, büyük model girdi uzunluğunun sınırlamalarının birçok uygulamanın hayata geçmesini zorlaştırdığını belirtti, bu da şu anda büyük şirketlerin uzun metin teknolojisine odaklanmasının nedenidir.

Örneğin, sanal karakter sahnelerinde, uzun metin yeteneği yetersizliği nedeniyle sanal karakter önemli bilgileri unutabilir. Senaryo tabanlı oyunlar geliştirirken, girdi uzunluğunun yetersiz olması kuralların ve ayarların kısaltılmasına neden olabilir, bu da oyun deneyimini etkiler. Hukuk, finans gibi uzmanlık alanlarında, derin içerik analizi ve üretimi de genellikle sınırlıdır.

Uzun metinler, gelecekteki Agent ve AI yerel uygulamalarında önemli bir rol oynamaktadır. Agent, planlama ve karar verme için geçmiş bilgilere dayanmak zorundadır, AI yerel uygulamaları ise tutarlı ve kişiselleştirilmiş bir kullanıcı deneyimi sağlamak için bağlama ihtiyaç duyar.

Yang Zhilin, büyük modellerin üst sınırının tek adım yeteneği ve yürütme adım sayısı tarafından belirlendiğini düşünüyor; burada tek adım yeteneği parametre miktarıyla ilişkili ve yürütme adım sayısı ise bağlam uzunluğunu ifade ediyor. Uzun metin teknolojisi, büyük modellerin erken dönemlerinde bazı sorunları çözmenin yanı sıra, endüstri ve uygulamaların hayata geçirilmesinde de kilit bir teknoloji olmaktadır.

Ayın karanlık yüzü tarafından yeni yayımlanan Kimi Chat ile uzun metinler döneminin büyük modelinin yükseltme özelliklerine göz atabiliriz:

  1. Uzun metinlerin anahtar bilgilerinin çıkarılması, özetlenmesi ve analizi
  2. Kod oluşturma ve değiştirme yeteneğinin artırılması
  3. Uzun diyalog sahnelerindeki rol yapma

Bu işlevler, sohbet robotlarının profesyonelleşme, kişiselleşme ve derinleşme yönünde ilerlediğini gösteriyor ve endüstrinin hayata geçmesine ve süper uygulamaların ortaya çıkmasına önemli bir araç olma potansiyeline sahip.

Uzun Metinlerin "İmkansız Üçgen" İkilemi

Uzun metin teknolojisinde, metin uzunluğu, dikkat ve hesaplama gücünün "imkânsız üçgen" sıkıntısı vardır. Bu, şu şekilde kendini gösterir:

  1. Metin ne kadar uzunsa, dikkat toplamak o kadar zorlaşır ve bilgiyi tam olarak sindirmek güçleşir.
  2. Dikkat kısıtlaması altında, kısa metinler karmaşık bilgileri tam olarak anlamak için yeterli değildir.
  3. Uzun metinlerin işlenmesi büyük miktarda hesaplama gücü gerektirir, maliyetleri artırır.

Bu zor durumun temelinde çoğu modelin Transformer yapısına dayalı olması yatıyor. Bu yapıda, kendi dikkat mekanizması hesaplama yükünü bağlam uzunluğuna göre kare oranında artırıyor.

Şu anda üç ana çözüm bulunmaktadır:

  1. Uzun metinleri işlemek için model dışı araçları kullanarak yardımcı olun
  2. Kendine dikkat mekanizması hesaplamalarını optimize et
  3. Model optimizasyonu için genel yöntemler

Uzun metinlerin "imkansız üçgen" sıkıntısı henüz çözülmedi, ancak bu, büyük model üreticilerinin keşif yolunu netleştiriyor: Metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi bulmak, yeterli bilgiyi işleyebilmek ve aynı zamanda dikkat hesaplaması ile hesaplama gücü maliyet kısıtlamalarını göz önünde bulundurmak.

TOKEN0.77%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 5
  • Repost
  • Share
Comment
0/400
metaverse_hermitvip
· 08-15 08:33
Okuma becerisi hızlı bir şekilde ilerliyor
View OriginalReply0
Whale_Whisperervip
· 08-15 08:32
Metni anlamak zor değil
View OriginalReply0
SelfSovereignStevevip
· 08-15 08:28
İşlem gücü beni şaşırttı.
View OriginalReply0
MoonRocketmanvip
· 08-15 08:24
Okuma yeteneği hızla yükseliyor
View OriginalReply0
HashBanditvip
· 08-15 08:09
token'in büyük bir yükselişi
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)