基本概念与国内外大模型

基本概念

大模型

大模型(Large Language Models，LLM)：是指拥有有数十亿或数百亿个参数的大型预训练语言模型，如GPT系列模型，GPT-3拥有1750亿个参数。
- 它们在解决各种自然语言处理任务方面表现出强大的能力，甚至可以展现出一些小规模语言模型所不具备的特殊能力，如涌现能力。
- LLM的研究已成为当前AI界的热点，其技术发展将彻底改变我们开发和使用AI算法的方式。
语言建模(Language Model，LM)：语言建模是提高机器语言智能的主要方法之一。
- 一般来说，LM旨在对词序列的生成概率进行建模，以预测未来 (或缺失)tokensl的概率。
语言建模发展阶段：统计语言模型->神经语言模型->预训练语言模型->大模型
- 统计语言模型(Statistical Language Model，SLM)：基于统计学习方法开发，例如根据最近的上下文预测下一个词。统计语言模型的一个经典例子是n-gram模型。在n-gram 模型中，一个词出现的概率只依赖于它前面的n-1个词。例如，一个三元模型(trigram model)会使用以下的公式来计算序列中某个词的概率： [P(w_i|w_{i-2}，w_{i-1})]这里只考虑了前两个词对第三个词出现概率的影响。
- 神经语言模型(Neural Language Model，NLM)：是使用神经网络来预测词序列的概率分布的模型。与传统的统计语言模型（如n-gram模型）使用固定窗口大小的词来预测下一个词的概率不同，神经语言模型可以考虑更长的上下文或整个句子的信息。
  - 循环神经网络(RNN)：包括乱STM和GRU等变体，能够处理变长的序列数据。
  - 分布式表示：在神经语言模型中，每个单词通常被编码为一个实数值向量，这些向量也被称为词嵌入(word embeddings)。词嵌入可以捕捉词与词之间的语义和语法关系。
- 预训练语言模型(Pre-trained Language Model，，PLM)：这些模型通常在大规模无标签语料库上进行预训练任务，学习词汇、短语、句子甚至跨句子的语言规律和知识。通过这种预训练，模型能够捕获广泛的通用语义特征，然后可以在特定任务上进行微调(fine-tuning。)，以适应特定的应用场景。
  - Transformer：2017年在论文《Attention Is All You Need)》提出的Transformer，Transformer模型通过其自注意力机制和高度的并行化能力，极大地提高了序列处理任务的效率和效果，它能够在处理序列数据时捕捉全局依赖关系，同时具有并行计算的能力，是近年来自然语言处理领域的重要进展之一。
- 大语言模型(Large Language Models，LLM)：大语言模型（大模型）是指那些具有大量参数、在大规模数据集上训练的语言模型。这些模型能够理解和生成自然语言，通常是通过深度学习和自注意力机制（如Transformer架构）实现的。它们在自然语言处理(NLP)的多个领域都有广泛的应用，包括但不限于文本生成、翻译、摘要、问答和对话系统。

Prompt

Prompt 通常指的是一个输入的文本段落或短语，作为生成模型输出的起点或引l导。

Prompt 可以是一个问题、一段文字描述、一段对话或任何形式的文本输入，模型会基于 Prompt 所提供的上下文和语义信息，生成相应的输出文本。

比如常见的猜词游戏，你来描述你着到的词，通过你的描述，让对方猜中这个词是什么，你描述的越准确，对方也就猜的越准对吧。同样的道理，你和大模型对话，就是让大模型先推理出你要问的问题是什么，大模型再回答这个问题。那么让大模型对你要问的问题猜测得越少，你就越能获得你想要的答案。

如何衡量什么样的提示词算一个好的提示词

身边的人是否能容易听懂

# Bad Case
帮我实现一个排序算法

# Good Case
实现一个排序算法。
要求：
1.python3.8实现；
2.时间复杂度为0（nLogn） ；
3.稳定排序
4.支持自定义比较函数。

技巧-穿越火线CEO

角色扮演（Cosplay)
给出示例（Few-shot)
思维链（Chain-of-thought， CoT）复杂任务拆解https://ar5iv.labs.arxiv.org/html/2201.11903?_immersive_translate_auto_translate=1
外部工具（External Tools）
输出提示（Output Indicator)

大模型应用

ChatGPT

两个分支：BERT vs GPT

BERT (Bidirectional Encoder Representations from Transformers)GPT (Generative Pretrained Transformer) 基于Transformers的架构
- BERT是由Google Al在2018年提出的一种预训练语言表示模型.它的主要特点是双向的Transformer编码器.这意味着
- BERT在处理一个单词时,会同时考虑这个单词前面和后面的上下文,这种全方位的上下文理解使得BERT在理解语言时更为精准.
  预训练：我喜[MASK]跑步
  BERT可以根据上下文来填充中间的文字
  应用示例：BERT非常适合用于理解单个文本或者文本对的任务，比如：
  - 情感分析：判断一段文本的情感倾向是正面还是负面。
  - 问答系统：给定一个问题和一段包含答案的文本，BERT可以帮助找到文本中的答案。
  - 命名实体识别(NE)：从文本中识别出特定的实体，如人名、地点、组织名等。
GPT (Generative Pretrained Transformer)：
- GPT由OpenAl提出,是一种基于Transformer的预训练语言生成模型.与BERT不同,GPT使用的是单向的Transformer解码器.它在处理文本时主要关注当前单词之前的上下文,这使得GPT在生成连贯文本方面表现出色.
  预训练：
```
我
我喜
我喜欢
我喜欢跑
我喜欢跑步
```
  应用示例: GPT可以应用于任何需要生成文本的场景,比如:
  - 文本生成：生成新闻文章、故事、代码等。
  - 机器翻译：将一种语言的文本翻译成另一种语言。
  - 摘要生成：从一篇长文中生成摘要。

大模型特点

参数数量庞大：大模型通常含有极多的参数，这些参数是模型在训练过程中学习到的权重和偏置。
数据需求巨大：为了训练这些模型，需要大量多样化的数据。数据的多样性可以帮助模型更好地泛化到未见过的情况。
计算资源密集：训练大模型需要大量的计算资源，这通常依赖于高性能的GPU或TPU集群。
泛化能力强：由于模型参数众多，大模型通常具有更好的学习能力和泛化能力。
迁移学习效果佳：大模型在一个任务上训练好之后，可以通过迁移学习的方式快速适应新的任务。

大模型问题

幻觉：幻觉是指LLM生成的输出是错误的，胡编乱造。比如“钢丝球炒西红柿”，由于大语言模型会预测下一个语法正确的字词或短语，因此并不能完全解读人类的意思。这导致有时会产生所谓的“幻觉”。
资源消耗：训练大模型需要消耗大量的电力和计算资源，这带来了环境和经济成本。
数据偏见：训练数据的代表性不足可能导致模型继承并放大现实世界的偏见和不平等。
可解释性差：大模型的决策过程往往是黑箱的，难以解释和理解。
安全性问题：大模型可能被用于生成假新闻、欺诈性内容等，引发安全和道德问题。

中文大模型基准测评2023年度报告open in new window

小模型训练过程

大模型 VS 小模型

大语言模型与AIGC之间的区别？

AIGC(Artificial Intelligence Generated Content)是一个总称，是指有能力生成内容的人工智能模型。

AIGC可以生成文本、生成代码、生成图像、视频和音乐。
热门的开源AIGC技术：LLaMA、Stable Diffusion
大模型也是一种AIGC，它基于文本进行训练并生成文本内容。

企业级应用场景

通用大模型

场景	需求	解决方案	公司或应用
智能聊天机器人/ChatBot	智能对话、智能问答	生成式AI技术应用	ChatGPT、文心一言、通义千问
搜索	理解意图，给出最佳回答、提高搜索准确性和交互性	A重构后的搜索，极致满足、推荐激发、多轮交互	百度搜索、New Bing
办公辅助	提升工作效率，办公自动化、办公文档创作、邮件撰写、策划方案生成	会议纪要、差旅安排、文档检索、实现AI辅助办公	百度如流、钉钉、腾讯文档、微软office
视频会议	会议纪要整理	自动生成会议记录和待办事项、自动记录与总结功能	腾讯会议、钉钉会议
代码编写	提升编码效率、无代码开发轻应用	通过专门训练的大模型进行智能代码补全、拍照生成代码	GitHub Copilot、蚂蚁CodeFuse研发助手钉钉、ChatGPT(GPT-4)
写作创作	高效率文档创作、辅助创作	AI写作助手、内容生成、智能生成PPT、文档、编辑和阅读辅助	百度文库、印象笔记、科大讯飞
AI绘画	低成本创作支持	使用语言模型助力绘画生成，使用户生成更精细的图案	Midjourney、DALL-E、Stable Diffusion
音视频创作	降低音视频创作门槛	AI配音平台、AI视觉大模型	出门问问、美图公司、Runway、剪映、巨量引擎
电商平台	优化购物体验和商家经营	AI助手和AI工具	淘宝、京东

行业大模型

场景	需求	解决方案	公司或应用
金融服务	提高银行柜员工作效率、风险管理	自动生成流程和操作指导、信用评估、投资策略和反欺诈、智能投顾	度小满、华为盘古金融大模型、火山方舟平台
政务	介绍相关的法规政策、精准理解民众咨询意图	大模型掌握丰富的法律法规、办事流程等行业知识	华为盘古政务大模型、中关村科学城城市大脑股份有限公司和科大讯飞
气象	提升气象预测速度和准确率	气象大模型预测	华为盘古气象大模型、上海人工智能实验室
药物研发	缩短药物研发周期和成本	药物分子大模型辅助研发	华为盘古药物分子大模型
医疗	诊疗和康复、收集决策因子和医学建议	病情分析、诊断和远程监测、多轮“问诊”和病历书写辅助、中医临床经验的智慧化复制	火山方舟平台、医渡科技、北京智谱华章科技有限公司和北京中医药大学...
外贸服务	提升外贸效率	AI采购助手和生意助手	阿里巴巴国际站

产业大模型

场景	需求	解决方案	公司或应用
制造业	优化生产计划制定效率	对业务需求进行准确的意图理解，快速制定生产计划	华为盘古制造大模型
铁路	检测铁路网络运行的货车是否存在故障	大模型精准识别列车故障	华为货车检测助手
煤矿	提高作业安全与效率	一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程	华为盘古矿山大模型
电力	提升电力行业自动化、智能化水平	电力行业NLP大模型	百度集团和国网智能电网，研...
建筑	提升建筑行业智能化水平	建筑领域多模态行业大模型	中国科学院自动化研究所和...

其他

场景	需求	解决方案	公司或应用
科研计算	提高科研计算效率	算力平台	复旦大学与阿里云合建CFFF智能算力平台
电力调度	电力调度的智能化应用	智能电力调度	南方电网与阿里云建成电力调度云平台
云计算平台	支持AI算力需求	提供算力底座和AI平台	阿里云、腾讯、百度、京东云

概览

机会

商业模式转变

传统的基础云服务(IaaS)将逐渐向模型即服务(MaaS)转型。未来企业选择云服务提供商时，将更加注重模型的质量和服务能力，而不仅仅是算力和基础设施。

垂直行业服务商

这类公司将成为通用大模型和具体企业之间的桥梁，他们利用行业知识(Know-how)来为客户定制解决方案。这些公司将有机会与大模型开发者合作，为各个行业提供专业化服务。

大模型应用开发

基于大模型的能力，开发特定应用，如文本、图像、音频、视频生成，以及数字人和3D模型等。这一领域已经涌现出许多创业公司，他们利用大模型的能力开发新应用，可能成为未来的行业巨头。随着人工智能技术的深入应用，预计将出现更多革命性的产品和应用，引发行业变革。

挑战

缺乏行业深度

通用大模型可能无法解决复杂的行业特定问题，因其缺乏深入的行业知识。大模型未与企业内部数据和流程打通，缺乏对企业特定情况的理解。

定制化专属模型：开发专注于特定行业知识和问题的行业深度模型。
企业个性化：将大模型与企业内部的技术、商业秘密和核心知识相融合。

数据安全隐患

企业将核心数据输入公有模型可能导致数据泄露和滥用。企业不愿意分享其核心知识至公有模型，希望自主控制模型的训练和更新。企业使用大模型时需要确保对模型的所有权和控制权，以保护数据和资产。

数据脱敏与隐私保护
私有化部署，保障数据不出企业
严格的权限管理和审计机制

大模型训练或使用成本高、生成内容准确性疑虑

知识蒸馏、参数量化与剪枝--->小模型
分布式训练与硬件加速，降低训练成本
SFT、RAG --- > 生成内容准确性
评估标准和测试流程

ChatGPT

使用注册（略）

其他方案

Poeopen in new window（全称“开放探索平台”，Platform for Open Exploration）：是一款由Quora开发的流动应用程式，于2022年12月推出。该应用程式内置建基于人工智能技术的聊天机器人，可供用户向机器人询问专业知识、食谱、日常生活，甚或要求它创作文章等。
phindopen in new window
vercel Al playgroundopen in new window
ChatGPT镜像站点open in new window

国外大模型平台

OpenAI

OpenAl是由山姆·阿尔特曼（Sam Altman），马斯克（Elon Musk）等人于2015年在旧金山创立的一家非盈利的人工智能研究公司，启动资金有10亿美金。

OpenAl的目标就是不受经济回报的限制来推进数字智能造福人类 OpenAi建立的自标就是为了与其它机构合作，进行AI的相关研究，并开放研究成果以促进AI技术的发展。

ChatGPT

优势

标杆。目前是业内标杆。 OpenAI 的 ChatGPT-3.5 是分水岭，GPT-4 是业界最高标杆。
支持联网
支持调用插件
GPT-4 Turbo： 128k上下文长度； GPT-3.5 Turbo： 16k上下文长度。注： turbo的含义，在原始的模型上做“剪枝"，使新模型参数更少，因此速度可以更快、费用可以更低
训练资料更新。新版本GPT-4的训练文本包含23年4月以前的资料了
GPT-4-Vision支持图生文
标准API，良好的文档，大模型行业的规范
支持Function Call

Anthropic

如果说OpenAl是行业老大的话，Anthropic是当仁不让的老二了。

Anthropic于2021年成立，公司由OpenAl的前成员创立。

在网站上将自己描述为一家AI安全和研究公司，致力于构建可靠、可解释和可控制的AI系统。

主要领导者是Dario Amodei和Daniela Amodei 兄妹，分别担任Anthropic的首席执行官和总裁

Claude

https://claude.ai/chat

Claude是Anthropic推出的智能对话助手，通过自然语言理解和生成，可以与用户进行流畅的交互。也被视为ChatGPT最大竞争对手。

注册方式与ChatGPT类似，可以使用Google账号注册，需要手机号验证，可以使用接码平台获取。

优势：

Claude允许模型一次接收和处理大量文本（大约100K Tokens，相当于 75，000 个单词），用户可以与Claude进行更深入的对话。
支持上传文本，可以上传多篇论文。
更好地理解自然语言查询，确保更准确、更敏感的回应，同时将有害或冒犯性的输出风险降到最低。
免费

Google

搜索老大。Google垄断了全球搜索市场，份额始终保持在90%以上。

AlphaGo

人工智能领域的领头羊。2016年AphaGo在围棋领域首次战胜了人类世界冠军李世右，引起了全球的关注。
Transformer模型算法，是Google Brain 的研究团队最先提出的。2017年发表的论文《Attention is all you need》

Bard

官网open in new window

2023年2月6日推出，有限用户测试。
Bard最初使用LaMDA进行对话应用程序，但后来升级为Google的下一代语言模型Palm 2 （Pathways Language Model）。Google在一篇博客中表示，与先前的模型相比，该模型在常识推理、逻辑和数学方面表现更好，而且速度更快。Bard的主要目标是提供简洁的答案，而不是搜索引擎结果页面。

优势

获取实时数据。能够有效地从Google搜索中获取信息，可以对网页进行摘要。
Extensions。和自家的产品打通，可以在聊天中使用Google的其他产品服务。参考： https://www.youtube.com/watch?v=lr87yrvK86w
支持对图片对话。根据草图生成代码。
免费

对比

公司	大模型	产品	优势
OpenAl	GPT 3.5、4	ChatGPT	全能、标杆
Anthropic	Claude 2	Claude	安全、上传多个文档对比
Meta	LLaMA 2	无	私有化部署，可商用
Google	PaLM 2	Bard	数据实时、对图片对话、和Gmail等打通

国内大模型平台

百度

2019年，发布的通用大模型文心大模型ERNIE
2023年6月，百度文心大模型3.5
2023年10月17日，发布文心大模型4.0

文心一言

百度创始人兼CEO李彦宏坐镇会场一一这也是继2018年为自动驾驶平台“萝下快跑”和智能视频音箱“小度在家”后，李彦宏时隔五年亲临发布会现场，为单个产品站台。

2023年3月中旬，文心一言开放用户申请

2023年8月31日，正式开放给全部用户使用

PC端： https://yiyan.baidu.com/
移动端：文心一言

收费情况: 文心大模型3.5版本的免费使用，文心大模型4.0版本收费

优势

支持文生图
支持联网
支持图生文
支持读取文档
支持生成图表
商业信息查询
生成思维导图

API

体验

新用户送50元体验券，有效期一个月
模型广场open in new window
应用接入open in new window
在线调试平台open in new window
Prompt 模版open in new window

获取Access token

'''
获取 client_id 和 client_secret ：
https://console.bce.baidu.com/qianfan/ais/console/applicationConsole/application
注意：
	- 基于v2协议的服务接口调整为IAM安全认证, 不再使用“API Key+Secret Key”; 如果需要继续创建旧版应用, 可以切换至旧版
	- 千帆全新发布v2协议模型服务接口, 基于v2协议的服务接口调整为IAM安全认证, 信息更安全, 使用更便捷: 立即尝试
'''
import requests
import json
import os

BAIDU_CLIENT_ID = os.environ.get('BAIDU_CLIENT_ID')
BAIDU_CLIENT_SECRET = os.environ.get(' BAIDU _ CLIENT _ SECRET ')



def main():
    url = (
        f"https://aip.baidubce.com/oauth/2.0/token?client_id={BAIDU_CLIENT_ID}&client_secret={BAIDU_CLIENT_SECRET}&grant_type=client_credentials")
    payload = json.dumps("")
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    print(response.text)


if __name__ == '__main__':
    main()

API交互示例

prompt

sql_prompt = """
CREATE TABLE [Album]
(
    [AlbumId] INTEGER NOT NULL,
    [Title] NVARCHAR(160) NOT NULL,
    [ArtistId] INTEGER NOT NULL,
    CONSTRAINT [PK_Album] PRIMARY KEY([AlbumId]),
    FOREIGN KEY ([ArtistId]) REFERENCES [Artist] ([ArtistId] )
                ON DELETE NO ACTION ON UPDATE NO ACTION
);
CREATE TABLE [Artist]
(
    [ArtistId] INTEGER NOT NULL,
    [Name] NVARCHAR (120) ,
    CONSTRAINT [PK_Artist] PRIMARY KEY ([ArtistId])
);

上面是两张表的表结构，我要查询名叫“AC/DC“的艺术家，总共发了多少张专辑，每张专辑的名字是什么。只需要生成SQL语句，SQL语句不要换行。
SQL:
"""

预期结果

ArtistId	ArtistName	AlbumId	AlbumTitle
1	AC/DC	1	For Those About To Rock We Salute You
1	AC/DC	4	Let There Be Rock

请求，具体可以参考官方示例，有多种语言 https://console.bce.baidu.com/support/#/api

import requests
import json

from llm import sql_prompt
# token
TOKEN = ''
def main(content):
        
    url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions_pro?access_token=" + TOKEN
    
    payload = json.dumps({
        "messages": [
            {
                "role": "user",
                "content": content
            }
        ],
        "temperature": 0.95,
        "top_p": 0.8,
        "penalty_score": 1,
        "enable_system_memory": False,
        "disable_search": False,
        "enable_citation": False
    })
    headers = {
        'Content-Type': 'application/json'
    }
    
    response = requests.request("POST", url, headers=headers, data=payload)
    
    print(response.text)
    

if __name__ == '__main__':
    main(sql_prompt)

阿里巴巴

通义千问

PC端： https://tongyi.aliyun.com/qianwen
移动端：通义千问

优势

数据实时性强
支持图生文
支持读取文档

行业大模型

辅助编程，IDE插件：通义灵码
个人健康助手：通义仁心
AI法律顾问：通义法睿
金融大模型：通义点金
智能客服（toB)：通义晓蜜
虚拟人，陪伴：通义星尘

应用

API

灵积模型服务控制台open in new window --- 灵积模型服务使用教程open in new window
最新开发的大模型服务平台：阿里云百炼open in new window --- 开发文档open in new window

科大讯飞

讯飞星火认知大模型 --- 星火大模型取名“星火"有三层寓意：

当前认知大模型的智能涌现，让科大讯飞更加看清了通用人工智能AGI的远景目标和实现路径
早在2001年科大讯飞“半汤会议”上，创业团队就提出了“燃烧最亮的火把，要么率先燎原，要么最先熄灭”
“星火”来自中国传统文化二十八星宿中的“心宿”星座，在中国传统文化中，被视为吉祥的象征，代表着力量、勇气和坚韧不拔的精神。
2023年5月6日，正式发布星火认知大模型
2023年6月9日，正式发布讯飞星火认知天模型V1.5
2023年8月15日，正式发布讯飞星火认知大模型V2.0
2023年10月24日，正式发布讯飞星火认知大模型V3.0

讯飞星火（sparkDesk）

PC端： https://spark.xfyun.cn/
移动端：讯飞星火-你的随身智能助手

助手中心（插件）

支持一键生成PPT
支持文档问答
生成word版本简历
与processon打通，生成流程图
图片翻译
基于简历对话
文生视频

应用

API

提供一年有限次数的讯飞大模型API体验
控制台open in new window
星火认知大模型WebAPI文档open in new window

智谱AI

GLM/ChatGLM

GLM
ChatGLM
2023年03月14日，60亿参数 ChatGLM-6B 模型开源
2023年06月25日，二代模型 ChatGLM2 模型开源，包含ChatGLM2-6B、ChatGLM2-12B、ChatGLM2-32B、 ChatGLM2-66B、 ChatGLM2-130B

智谱清言

PC端： https://chatglm.cn/main/detail
移动端：智谱清言-工作生活学习AI助手

优势

文成图，可以生成4张风格不同的图
图生文，看图理解
文档助手

应用

代码生成 CodeGeeXopen in new window
代码沙盒open in new window
科研情报平台，ChatPaper amineropen in new window
Al-Agents必读论文open in new window

腾讯

腾讯混元

2023年9月7日，腾讯正式发布混元大模型

华为

华为盘古

2023年7月7日，发布盘古大模型3.0

大模型常见问题的解决思路

问题

大模型的回答总是车轱话来回说，怎么办？
大模型输出的格式不是自己想要的，怎么办？
大模型总胡编乱造，怎么办？ (幻觉）
大模型的数据过时，怎么办？
大模型经常freestyle，自由发挥，怎么办？（严肃场景，回答稳定，不乱说）
担心使用大模型私有数据泄漏，怎么办？

基本概念与国内外大模型

# 基本概念与国内外大模型

# 基本概念

# 大模型

# Prompt

# 大模型应用

# 大模型特点

# 大模型问题

# 小模型训练过程

# 大模型 VS 小模型

# 大语言模型与AIGC之间的区别？

# 企业级应用场景

# 通用大模型

# 行业大模型

# 产业大模型

# 概览

# 机会

# 挑战

# ChatGPT

# 使用注册（略）

# 其他方案

# 国外大模型平台

# OpenAI

# Anthropic

# Meta

# Google

# 对比

# 国内大模型平台

# 百度

# 阿里巴巴

# 科大讯飞

# 智谱AI

# 腾讯

# 华为

# 大模型常见问题的解决思路

# 问题

基本概念与国内外大模型

基本概念

大模型

Prompt

大模型应用

大模型特点

大模型问题

小模型训练过程

大模型 VS 小模型

大语言模型与AIGC之间的区别？

企业级应用场景

通用大模型

行业大模型

产业大模型

概览

机会

挑战

ChatGPT

使用注册（略）

其他方案

国外大模型平台

OpenAI

Anthropic

Meta

Google

对比

国内大模型平台

百度

阿里巴巴

科大讯飞

智谱AI

腾讯

华为

大模型常见问题的解决思路

问题