semaver
New member
IA Galaxy -ll Crash Course Bölüm 1'de otostopu yapmak
Seslerin sadece statik kelime koleksiyonları değil, aynı zamanda insan metinlerini içerebilecek ve üretebilecek canlı varlıklar olduğu büyülü bir bilgi veritabanı hayal edin. Doğal dilin detaylandırılmasının sınırlarını şaşırtıcı bir şekilde genişleten Büyük Dilbilimsel Modeller (LLM) dünyasına hoş geldiniz. Bir yazılım geliştiricisi olarak, şu anda bizi bu dilsel mekanizmaların iç yapılarında yönlendiren büyüleyici bir yolculuğa başlıyoruz. Sonuçta, son yıllarda büyük bir dilde devrim yarattı.

Dr. Michael Stal, 1991 yılından bu yana Siemens teknolojisi üzerinde çalışmaktadır. Yazılım mimarisi sorunları hakkında iş alanları önermektedir ve Siemens'in kıdemli yazılım mimarlarının mimari oluşumundan sorumludur.
Emniyet kemerlerini oruçlamak!
LLM'nin Temelleri
Büyük bir dilsel model, insan dilini işlemek ve üretmek için tasarlanmış bir tür yapay zeka (AI). Dilsel veriler içindeki modelleri ve ilişkileri öğrenmek için derin katmanlarda sinir ağlarını kullanan bir öğrenme modelidir. LLM'deki “büyük”, muazzam miktarda eğitim verisini ve ayarlanabilir düğmeler olarak görüntülenebilen ve modeli tahmin yapmak için kullanan muazzam sayıda parametreyi ifade eder.
LLM'ler Transformatörün mimarisi2017 yılında “İhtiyacınız olan her şey dikkat” de tanıtıldı. RNN veya CNN'nin aksine, transformatör paralel bir metinde tüm kelimeler arasındaki bağlam ilişkilerini kaydetmek için kendi kendine post mekanizmaları kullanır.
Transformatörlerin temel bileşenleri şunları içerir:
- Kodlayıcı kod çözücü yapısı (genellikle sadece LLM'ler için kod çözücü)
- Plus Head ile Saldırı
- Besleme ağları
- Artık bağlantılar ve katmanın normalleştirilmesi

Transformatörün mimarisi, kodlayıcı ve kod çözme işleminden oluşur, bu da nöronal ağlardan oluşur.
(Resim: Wikipedia)
Bir LLM aşağıdaki bileşenlerden oluşur:
- Tokatçı: Bu, jeton adı verilen daha küçük birimlerde giriş metinlerini sökmekten sorumlu olan modelin modelidir. Jetonlar aşağıdaki kelimeler olabilir -parole (kelimeler içindeki daha küçük birimler) veya hatta işaretler.
- Birleştirme: Birleşme katmanı, büyünün başladığı yerdir. Giriş jetonlarını, birleştirme olarak adlandırılan ve modelin anlayabileceği sayısal gösterimlere dönüştürür. Bunlar dahil, jetonun anlamsal önemini kaydeder, böylece model benzer anlamlara sahip kelimeler arasında ayrım yapabilir.
- Kodlayıcı: Enkoder, sihrin meydana geldiği modelin beynidir. Birleşmeyi alır ve genellikle “bağlamsal sunum” olarak belirtilen giriş metninin sürekli bir gösterimini oluşturur. Bu sunum, sözdizimi, anlambilim ve bağlam gibi dilin tonlarını yakalar.
- kod çözücü: Kod çözücü, girişe ve bağlamsal sunuma dayalı metnin oluşturulmasından sorumlu olan modelin yaratıcı tarafıdır. Tutarlı ve bağlamsal metinler üretebilen son derece gelişmiş bir dil dilleri olarak davranır.
- Eğitim hedefi: Eğitim hedefi, modelin eğitim sırasında neyi optimize etmesi gerektiğini tanımlayan modelin yol gösterici ilkesidir. Sık sık hedefler maskeli vokal modeli (eksik jetonların sağlanması) ve bir sonraki cümlenin tahminidir (iki cümle uyuyorsa öngörülür).
- İlk katmanlar Yerel modelleri yakalayın (örneğin kelime grupları).
- Derin katmanlar Bağlamların modellenmesi ve küresel soyutlamalar.
Bir tokenleştiricinin amacı, ham metni ayrı birimlere (jeton) dönüştürmektir. Bunun için birkaç yöntem var:
- Kodlama çifti (BPE): Sık sık diziler kombine (örneğin “” mutlu “” mutsuz “).
- Kelime: Benzer BPE, alt kelime birimleri için optimize edilmiş.
- Cümle Bölümü: Ham metni tahmin etmeden ayrıntılı olarak hazırlayın.
IncorporA: LLM'nin Tuğlaları
Sayısal vektörler olarak modelin belirteç (kelimeler, parko veya karakterler) sunmasına izin veren LLM'lerin tabanı. Her jeton yüksek boyutlu bir taşıyıcıya dönüştürülür (örneğin 768 veya 4096 boyutları). Model, eğitim sırasında bu vektörleri öğrenir ve girdi jetonunun anlamsal önemini yakalar. Aşağıdakiler dahil olmak üzere farklı türden birleşme türleri vardır:
- Kelimeler sorunları kelimeleri yüksek boyutlu bir alanda vektör olarak temsil eder. Her kelime net bir taşıyıcı ile ilişkilidir, böylece model benzer anlamlara sahip kelimeler arasında ayrım yapabilir. Taşıyıcılar gerçek sayılardan oluşur ve genellikle birkaç yüz unsur içerir. Her boyut, bir renk, hayvan türü olarak AI'dan seçilen bir alanı temsil eder.
- Underbalance dalışı, vektörler olarak alt parçaları (kelimeler içindeki daha küçük birimler) temsil eder. Bu, modelin morfoloji kelimesinin tonlarını kaydetmesini ve bilinmeyen kelimeleri yönetmesini sağlar.
- İmzalanan konular bireysel karakterleri vektör olarak temsil eder. Bu, karmaşık yazma sistemlerine sahip dillerin yönetimi veya çizim desenlerinin modellenmesi için kullanışlıdır.
Konumsal kodlama ve kuruluş
Konumsal kuruluşlar olarak İngilizce olarak belirtilen konumsal kodlama, LLM'de girdi jetonlarının sırasını alan önemli bir rol oynar. LLMS, giriş metnini bir jeton sırasındaki sökür ve her bir jetonu sayısal bir gösterime dönüştürür. Bununla birlikte, jeton arasındaki bağlamı ve ilişkileri anlamak için gerekli olan bu dönüşümde jeton sırası kaybolur. Bu sorunu çözmek için, jetonların sırasını hatırlamak için dahil edilen jetonlara konumsal kodlama eklenir. LLM, eğitim sırasında konumsal kodlamayı öğrenir. Her jetonun sıradaki konumunu kodlamak için kullanılırlar. Bu, modelin jeton ve sıradaki konumları arasındaki ilişkileri anlamasını sağlar.
Farklı konumsal kodlama türleri vardır:
- Mutlak Konumsal Kodlama Sıradaki her konum için sabit bir kodlama kullanın.
- Göreceli konumsal kodlama, jeton arasındaki mesafeye bağlı bir bağıl kodlama kullanır.
- Model, eğitim sırasında öğrenilen konumsal kodlamayı öğrenir. Spesifik etkinliğe ve veri kaydına göre uyarlanabilirler.
İleri katman (tamamen bağlı katman) LLM'lerin çalışma hayvanlarıdır. Birleşmeyi giriş olarak alırlar ve giriş metninin sürekli bir temsilini oluştururlar. İleri güç seviyesi aşağıdakilerden oluşur:
- Doğrusal katmanlar, yeni miktarda vektör oluşturmak için dalış girdi için doğrusal bir dönüşüm uygular.
- Relu (rektifiye doğrusal birim) veya Gelu (Gauss hatasının doğrusal birimi) gibi aktivasyon fonksiyonları, karmaşık modelleri ve ilişkileri kaydetmek için modele doğrusal olmayan bir şekilde sunulur.
Gibi cümlelerde “Köpek kurnaz kediyi evin her yerine kovaladı. Ama zamanında saklanabilirdi” Her biri sadece odada izole olmayan farklı kelimeler var. İlk cümlede, “köpek” “sınır dışı edilen” bir aktivite ve şifre “kedi” anlamına gelir. Dolayısıyla, aynı cümlede iki kelimeyle “köpek” kelimesinin güçlü bağlantılarına sahibiz. Bu kelime çiftlerinin her biri, bir kelimenin cümledeki ilişkisini diğerine tanımlar. Bu bağlantılar daha güçlü veya daha zayıf olabilir. Bir LLM, cümledeki her kelime için ilişkileri cümledeki başka bir kelimeye hesaplar. Buna otonom denir. Güçlü jetonun birbirlerine ne kadar dikkat ettiğini ifade eder.
LLM, bir metnin farklı yerlerinde karşılık gelen dikkati paralel olarak yarattığından, birden fazla kafa yeriyle uğraşıyoruz. Bununla birlikte, yeterli bir vizyon olmadan, bir LLM önemli ilişkiler kaybedilir. Dolayısıyla, LLM'ler cümlelerde sökülüp her ifadeyi kendileri için değiştirmiş olsaydı, ikinci cümle ilk cümlede “kedi” anlamına gelir. Cross Stationon, daha geniş bir bağlamla saldırıyı/ilişkileri belirlemeye hizmet eder. LLM'lerin söz konusu bağlamın büyüklüğü ile sınırlı olması önemlidir. Bağlam ne kadar büyük olursa, gerekli RAM o kadar büyük olur. Bağlamın boyutu, birkaç kilobayttan (bazı yazma makineleri) farklı megabaytlara (kitabın tüm içeriği) kadar değişir. LLM, bağlam ve “taşma” belleği hakkında çok fazla bilgi fark etmişse, önceki bağlamı “unutmaya” başlar.
Kendi istasyonu, modelin giriş metninin farklı bölümlerine dikkat etmesini ve bağlamsallaştırılmış bir ekran oluşturmasını sağlayan bir mekanizmadır. Dikkate alındığı anda başka kelime en büyük rapora (saldırı) sahip.
Çok test istasyonu, modelin boşanmış perspektiflerin giriş metninin farklı bölümlerine aynı anda dikkat etmesini sağlayan bir mekanizmadır. Tek bir saldırı ameliyatı yerine, transformatör birkaç “baş” kullanır: kafalar farklı ilişkiler (örneğin sözdizimi ve semantik) yakalar. Kafaların çıkışları sonuçlandırılır ve doğrusal olarak yansıtılır.
Avantaj: Model aynı zamanda çeşitlendirilmiş bağlam bağımlılıklarını da öğrenir.
Çapraz istasyon, modelin giriş metni (istemi) veya diğer modeller gibi jetonun daha da kaldırılmasıyla harici bilgilere dikkat etmesini sağlayan bir mekanizmadır. Bu, özellikle kod çözücü katmanı girişinden geçiş için önemlidir.
Bu aşağıdaki adımlardan elde edilir:
- Sorgu, anahtar ve değer vektörleri: Model, giriş dalışından sorgu taşıyıcı, anahtar ve değer üretir. Sorgu vektörü bağlamı temsil eder, anahtar taşıyıcı giriş jetonlarını temsil eder ve değerli taşıyıcı her jetonun önemini temsil eder.
- İtiraf Ağırlıkları: Model, sorgu ve anahtar vektörlerin skaler ürününü hesaplayan para çekme ağırlıklarını hesaplar. Bu ağırlıklar bağlamda her bir jetonun önemini temsil eder.
- Ağırlıklı toplam: Model, saygılı ağırlıkları katsayılar olarak kullanarak değerli taşıyıcıların ağırlıklı bir toplamını hesaplar. Bu, giriş metninin bağlamsal bir temsilini oluşturur.
(RME)