LLM'ler Halk İçin Tıbbi Asistan Olabilir mi? Randomize Ön Kayıtlı Bir Çalışmadan Dersler
Nature Medicine'de yayımlanan randomize ve ön kayıtlı bu çalışma, halkın tıbbi senaryolarda büyük dil modelleri (LLM) ile etkileşime girdiğinde performansın beklenmedik biçimde düşebileceğini gösteriyor. Modeller "tek başına" yüksek doğrulukla yanıt verebilirken, kullanıcıyla etkileşimli kullanımda doğru durum tanımlama ve doğru yönlendirme (disposition) oranları kontrol grubunu aşmıyor. Sonuç: klinik-dışı halka açık dağıtımlar için benchmark skorları yeterli değil; gerçek kullanıcı testleri şart.