LLMs_interview_faq面试造核弹,上班拧螺丝 – LLMs面试高频题 (为什么Transformer的架构需要多头注意力机制? transformers需要位置编码吗? transformer中,同一个词可以有不同的注意力权重吗? 什么是KVCache技术,它具体是如何实现的? 为什么transformer块使用LayerNorm而不是BatchNorm?…)2024-04-26/posts/llms/llm_faqs/ map[email:1522009317@qq.com name:fmh]#Transformer Architecture#GPT/BERT#Self-Attention