LLMs_interview_faq

面试造核弹，上班拧螺丝 – LLMs面试高频题 (为什么Transformer的架构需要多头注意力机制？ transformers需要位置编码吗？ transformer中，同一个词可以有不同的注意力权重吗？什么是KVCache技术，它具体是如何实现的？为什么transformer块使用LayerNorm而不是BatchNorm?…)

2024-04-26