OpenAI前首席科学家Ilya Sutskever曾表示:“我们已经达到数据的峰值了,之后不会再有更多。”在他看来,“我们只有一个互联网。”当前的大语言模型(LLM)会因数据枯竭而陷入发展瓶颈。
但我认为,文本数据的潜力还远远没有真正发挥出来。当前问题的核心不在于训练前给模型喂多少篇“文章”,而在于我们使用的数据转化方法。我们现在运用的那些将文字转化为数据的方法,还存在表示上的局限性。
实际上,当前的大语言模型,它们在训练前,先要将词语转化为高维数字向量,然后才会在训练中利用“自注意力”机制整合上下文信息,最终基于概率来生成文本内容。
这里的陷阱在于:我们提供给模型的数据,也就是所谓的“高维数字向量”,其所编码的语言信息维度还远远不够。它仅仅把语言看成是逻辑和文字序列信息,而忽略了语言背后往往还有其他更多的非文本特征信息。我们要让代表每个字的向量能够编码更多样的信息模态。
作家的作品,这里面的每个字,并非像大语言模型一样,单纯按照文字含义和字词最常见组合来排列。实际上,真正的作家,当他们写作时,无论是在意识或潜意识里,文字都会有韵律、平仄,长短、节奏,甚至有颜色和光泽。这种组合如同音乐和绘画,这才让他们的作品有着强烈的艺术感染力。
换而言之,我们给模型的所谓“文本数据”只是一个二维的、扁平化的文本平面,而人类真正所使用的语言,是立体的、多维度的感官体验。这就是为什么现在的模型,在编程这类任务表现卓越,而在文学创作上往往不尽人意。
编程语言是高度抽象和逻辑化的。它依赖严谨的语法和规则,不需要情感、声音等信息。当前的模型很擅长处理此类较“低”维度的信息。也就是说,任务和数据的信息维度是完全匹配的。
但文学语言,甚至日常口语都需要更高维度的信息,包括情感、直觉、联想、感官体验,甚至环境因素等等。这些信息在当前训练模式下,数据中并没有提供,而是需要模型在后续训练中自己去发现。模型表示,这对它们来讲,太难了!
或许,我们需要从根本上改变传统大模型的数据表示和训练/推理范式。在训练阶段,我们可以通过显式地在向量中编码声学、长度、情感等关键特征,让模型直接在这些高维、多模态的数据上进行学习。而且,无论是在训练还是推理过程中,Token(模型中语言的最小单位)都会是一个动态的、会演变的状态。通过这种方式,模型在生成文本时不仅会考虑词语组合的概率信息,还会通过内部表示来推断出词语的音高、时长、重音、平仄与押韵等要素。
正如作家会通过反复炼句提供最佳的作品。同样,未来的模型在文学创作时也应该提供一种高维度的、确定的最优选择。模型能真正理解并捕获文学和语言的内在精髓,从而可以精准地选择当前场景下最能表达意图的词语,而不是靠“温度”这类小伎俩来让文字有些随机性,这才是对人类语言的真正理解。
这就像人类的眼睛只能看到可见光谱。但当我们发现了无线电波后,我们就能用雷达看到眼睛看不到的地方。同样,给数据附上更多维的信息,或许我们也同样能让模型变得更“聪明”,更“多情”!
在线咨询
提示:系统优先提供真人服务。非工作时间或繁忙时,会由 AI 生成回答,可能存在错误,请注意甄别。