Transformer 深度学习模型架构为什么叫 "Transformer"

悬赏园豆：10 [待解决问题]

现在大模型流行使用的 Transformer 架构为什么叫 "Transformer"?

dudu | 高人七级 | 园豆：27660
提问于：2025-03-03 11:06

Why transformer in deep learning is called transformer?

– dudu 2周前

< > 人人可用的开源BI工具

所有回答(1)

在知乎的这个回答中找到的一个答案：

Transformer模型之所以被称为"Transformer"，是因为它的核心功能是对输入数据的矩阵进行变换处理。这种变换是通过计算矩阵内部各个向量之间的关系来实现的，目的是去除无效信息并加强有效信息。在这个过程中，组成矩阵的向量的值会发生变化，但形状保持不变。这样的变换使得模型能够更好地解决最终问题

来自 ChatGPT 的回答：

The term "transformer" comes from the model’s core function—it transforms input data (like a sequence of words) into a new, more useful representation for a given task. Introduced in the influential paper "Attention Is All You Need," the transformer architecture uses attention mechanisms to "re-cast" or transform each element of the input sequence by dynamically relating it to other elements. This ability to flexibly transform input data into contextually enriched representations is a key reason behind its name.

dudu | 园豆：27660 (高人七级) | 2025-03-03 11:57

DeepSeek的回答：

Transformer 模型架构之所以命名为 "Transformer"，是因为其核心机制通过自注意力（self-attention）对输入序列中不同位置的关联信息进行动态转换和整合，从而实现对全局上下文的高效建模。

豆包的回答：

Transformer 模型名称源于其通过自注意力机制动态转换输入序列的表示形式，从而高效处理长距离依赖关系的核心能力。

ChatGPT 的回答：

It's called a "transformer" because it transforms input data into contextually enriched representations using attention mechanisms.

提示词中加了“用一句话回答”

支持(0) 反对(0) dudu | 园豆：27660 (高人七级) | 2025-03-03 17:14

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。

Transformer 深度学习模型架构为什么叫 "Transformer"

微信扫一扫：分享

欢迎，请先登录或者注册。