Teknoloji
Moderator
Apple, büyük dil modellerinin (LLM) daha hızlı çalışmasını sağlamak amacıyla NVIDIA ile iş birliği yaptığını duyurdu. Bu ortaklık, özellikle metin üretimi süreçlerini hızlandırmayı hedefleyen Recurrent Drafter (ReDrafter) adlı yöntemin NVIDIA’nın TensorRT-LLM altyapısına entegre edilmesiyle dikkat çekiyor.
ReDrafter, "beam search" ve "dynamic tree attention" yöntemlerini birleştirerek, önceki tekniklere kıyasla daha hızlı sonuçlar sunuyor. Bu yaklaşım sayesinde, açık kaynaklı modellerde her adımda 3,5 kat daha fazla token üretiliyor ve üretim hızında çarpıcı bir artış sağlanıyor.
Apple, bu yöntemin NVIDIA’nın TensorRT-LLM sistemine entegre edilmesi sürecinde yeni operatörler ekleyerek ya da mevcut olanları optimize ederek, sistemin daha karmaşık modelleri ve yöntemleri desteklemesini mümkün hale getirdi. Yapılan testlerde, NVIDIA GPU’ları üzerinde çalışan milyarlarca parametreli modellerin, token üretim hızında 2,7 kat artış sağlandığı görüldü.
Kaynak: Apple
Otomatik regresyona karşı ReDrafter ile NVIDIA TensorRT-LLM kullanılarak sn başına token hızı
Bu gelişme, yalnızca kullanıcı deneyimindeki gecikmeyi azaltmakla kalmıyor, aynı zamanda enerji tüketimini ve GPU kullanımını da düşürüyor. Apple ve NVIDIA’nın bu ortaklığı, makine öğrenimi topluluğuna daha hızlı, güçlü ve verimli bir altyapı sunmayı hedefliyor.
Apple ve NVIDIA, bu entegrasyonun sektör genelindeki geliştiricilere daha geniş olanaklar sunacağına inanıyor ve gelecekte daha fazla yeniliğin kapısını aralamayı planlıyor.
ReDrafter, "beam search" ve "dynamic tree attention" yöntemlerini birleştirerek, önceki tekniklere kıyasla daha hızlı sonuçlar sunuyor. Bu yaklaşım sayesinde, açık kaynaklı modellerde her adımda 3,5 kat daha fazla token üretiliyor ve üretim hızında çarpıcı bir artış sağlanıyor.
Apple, bu yöntemin NVIDIA’nın TensorRT-LLM sistemine entegre edilmesi sürecinde yeni operatörler ekleyerek ya da mevcut olanları optimize ederek, sistemin daha karmaşık modelleri ve yöntemleri desteklemesini mümkün hale getirdi. Yapılan testlerde, NVIDIA GPU’ları üzerinde çalışan milyarlarca parametreli modellerin, token üretim hızında 2,7 kat artış sağlandığı görüldü.
Kaynak: Apple
Otomatik regresyona karşı ReDrafter ile NVIDIA TensorRT-LLM kullanılarak sn başına token hızı
Bu gelişme, yalnızca kullanıcı deneyimindeki gecikmeyi azaltmakla kalmıyor, aynı zamanda enerji tüketimini ve GPU kullanımını da düşürüyor. Apple ve NVIDIA’nın bu ortaklığı, makine öğrenimi topluluğuna daha hızlı, güçlü ve verimli bir altyapı sunmayı hedefliyor.
Apple ve NVIDIA, bu entegrasyonun sektör genelindeki geliştiricilere daha geniş olanaklar sunacağına inanıyor ve gelecekte daha fazla yeniliğin kapısını aralamayı planlıyor.