IT House'un 16 Ekim'de bildirdiğine göre, mevcut büyük dil modellerini farklı ihtiyaçlar için değiştirmek, ilgili modellerin uygulanabilirliğini artırabilir, ancak Princeton Üniversitesi ve IBM Research tarafından yapılan bir araştırma, büyük dil modellerine ince ayar yapmanın, model ekleyen geliştiricilerin güvenliğini baltalayabileceğini buldu. Araştırmacılar bir dizi deney yaptılar ve veriler tamamen iyi huylu olsa bile modelin güvenliğinin zayıfladığını gösterdiler, örneğin Alpaka veri setinde GPT-3.5 Turbo zararlı oranını %5,5'ten %31,8'e yükseltirken, Llama-2-7b Chat zararlı oranını Alpaka'da %0,3'ten %16,1'e ve LLaVA-Instruct'ta %0'dan %18,8'e çıkardı. Araştırmacılar, büyük modellere ince ayar yapması gereken kullanıcıların, eğitim veri kümesini dikkatlice seçerek, bir öz denetim sistemini içe aktararak ve test uygulamak için kırmızı ekipler kullanarak modelin güvenliğini zayıflatmaktan kaçınabileceğine dikkat çekti.