语言模型(language model,LM)通过计算单词序列的概率进行语言建模,其主要作用是基于给定的上下文,预测序列中下一个词的概率分布。随着计算能力的提升和数据量的增长,LM的发展经历了从统计语言模型(statistical language model , SLM)到神经语言模型(neural language model , NLM)的演进。 2018年,BERT(bidirectional encoder representations from transformers)模型的提出,标志着预训练语言模型(pre-trained language model , PLM)时代的开启。PLM是一种基于大量无标注文本数据进行深度学习的模型,旨在捕捉自然语言的语法、语义以及常识。此后,一系列PLM如GPT(generative pre-trained transformer)系列、RoBERTa(Robustly optimized BERT pre-training approach)、XLNet等相继出现。 GPT系列模型通过自监督学习在广泛的文本数据上进行预训练,进而灵活地应用于写作助手、代码生成和自动化客户服务等多种下游任务。BERT和RoBERTa模型侧重于理解语境中的语言,如文本分类、命名实体识别和问答系统等。这些模型利用Transformer架构,并依赖自注意力(self-attention)机制捕捉输入数据中的复杂依赖关系,从而显著提高自然语言处理任务的准确性。当PLM的有效参数规模达到数百亿级别时,便称之为LLM。 LLM也称大规模语言模型,是由包含数百亿以上参数的深度神经网络构建的语言模型,通过自监督学习方法利用大量未标注文本进行训练。其核心思想是通过大规模的无监督训练学习自然语言的模式和结构,在一定程度上模拟人类的语言认知和生成过程。 相比传统的NLP模型,LLM能够更好地理解和生成自然文本,同时表现出一定的逻辑思维和推理能力。 LLM在多种应用场景下表现出色,不仅能执行拼写检查和语法修正等简单的语言任务,还能处理文本摘要、机器翻译、情感分析、对话生成和内容推荐等复杂任务。 在医学领域,LLM能够处理和分析海量的医学文献、病历数据等医学信息,为医学人工智能的应用提供了更加智能和高效的解决方案。 |