什么是大语言模型LLM

tiko · 2025-8-10 12:34:55

语言模型（language model,LM）通过计算单词序列的概率进行语言建模，其主要作用是基于给定的上下文，预测序列中下一个词的概率分布。随着计算能力的提升和数据量的增长，LM的发展经历了从统计语言模型（statistical language model , SLM）到神经语言模型（neural language model , NLM）的演进。

2018年，BERT（bidirectional encoder representations from transformers）模型的提出，标志着预训练语言模型（pre-trained language model , PLM）时代的开启。PLM是一种基于大量无标注文本数据进行深度学习的模型，旨在捕捉自然语言的语法、语义以及常识。此后，一系列PLM如GPT（generative pre-trained transformer）系列、RoBERTa（Robustly optimized BERT pre-training approach）、XLNet等相继出现。

GPT系列模型通过自监督学习在广泛的文本数据上进行预训练，进而灵活地应用于写作助手、代码生成和自动化客户服务等多种下游任务。BERT和RoBERTa模型侧重于理解语境中的语言，如文本分类、命名实体识别和问答系统等。这些模型利用Transformer架构，并依赖自注意力（self-attention）机制捕捉输入数据中的复杂依赖关系，从而显著提高自然语言处理任务的准确性。当PLM的有效参数规模达到数百亿级别时，便称之为LLM。

LLM也称大规模语言模型，是由包含数百亿以上参数的深度神经网络构建的语言模型，通过自监督学习方法利用大量未标注文本进行训练。其核心思想是通过大规模的无监督训练学习自然语言的模式和结构，在一定程度上模拟人类的语言认知和生成过程。

相比传统的NLP模型，LLM能够更好地理解和生成自然文本，同时表现出一定的逻辑思维和推理能力。

LLM在多种应用场景下表现出色，不仅能执行拼写检查和语法修正等简单的语言任务，还能处理文本摘要、机器翻译、情感分析、对话生成和内容推荐等复杂任务。

在医学领域，LLM能够处理和分析海量的医学文献、病历数据等医学信息，为医学人工智能的应用提供了更加智能和高效的解决方案。

什么是大语言模型LLM

浏览过的版块

底部导航

积分管理

关于我们