10分钟读懂AI大模型,通俗易懂,小白也能轻松读懂!AI大模型看这一篇就够了
因为产品经理可以不懂技术,这就导致在了解新技术特别困难,下面我会用极简的方式介绍什么是AI大模型。
不懂代码、不懂数学、不懂数据库,也能了解大模型。

一、名词解释
无论是配置模型还是使用,都会遇到一些大模型相关的特有名词,所以需要先了解这些名词是什么意思才能更好的运用它。
1.1 参数
参数是指模型的大小,一般来说参数越大,模型的能力越强。大模型的参数单位一般用“B”来表示,1B代表10亿参数。
以下面的两张图为例,第一张图是阿里百炼平台的模型广场,另一张图是欧拉玛的模型广场,这里面的模型基本都会按照“名称”+“版本”+“参数”的形式分类。
参数的单位基本都是“B”,但是因为有些模型不是通用大模型,而只是适用于某些领域的小模型,所以参数量会比较小,单位为“K”或“M”。
单位包括:K(千)、M(百万)、B(十亿)、T(万亿)。

阿里云百炼

欧拉玛(Ollama)
参数越大那么模型就可能会占用越多的存储空间,但因为不同模型对于权重、精度、压缩技术的处理方式不同,所以参数与存储空间并不是线性关系。
你如果问7B参数大小的模型占用多少内存空间,我只能说不知道,这要看具体的模型.每家模型训练的不一样,那么相同参数的情况下所占用的存储空间也是不一样的。就好像同样是6年纪的小学生,有的身高一米五、有的身高一米七一样。
1.2 token
token是大模型处理数据的最小单位,比如一个字、一个词、一个像素、一段音轨等。
我们试着将下面的句子拆分成最小单位:
–“你好!”–,这一段话,可以将其拆分为:“你”、“好”、“!”,这三个最小单位。
–“我想吃虾丸。”–,这一段话,可以将其拆分为:“我”、“想”、“吃”、“虾丸”、“。”,这五个最小单位。
这两句话在拆分时有一点不一样,第二句话的“虾丸 ”并没有拆分成两个字,而是以词的形式做了拆分,原因是“虾丸”作为名词,已经无法在进行拆分了,如果拆分为“虾”、“丸”两个字,那就导致句子失去了原有的含义。
代码是怎么进行拆分的呢?基本逻辑就是将一句话中的词挑出来,剩下的就可以作为字来处理。
中文分词工具包括:THULAC (Tsinghua University Language Analysis and Computing、HanLP (Han Language Processing)、LTP (Language Technology Platform)等。
另外对于大模型的提供方已经内置分词功能了,或者说大模型本身就有分词能力,不需要我们在做额外工作。
1.3 上下文
一段话的周围信息就是上下文,例如连续问大模型两个问题,这两个问题及回答互为上下文。

日常在沟通过程中,相同的问题我们会因为场景不同得出不同的结论。
开需求评审会时,我们会问技术同学、测试同学对需求有什么问题?技术同学会从技术的角度回答需求有什么问题、测试同学会从测试的角度回答测试的问题。假如此时我们冲着门外的设计同学询问他们有什么问题,设计同学会一脸懵,因为他们不知道你是因为什么原因问的这个问题。
回到图片示例的大模型问答上,当我问“包含哪些部分”时,大模型会基于第一句话理解我的意图,再做出对应的回答。
1.4 多模态
是指可以处理多种类型的数据,比如纯文字、图片、文档等,而单一模态的模型是指只能处理文字或图片或声音的模型。
下面的通义模型,可以上传图片、文字、文档数据,就是多模态大模型。

下图的openai提供的一系列模型皆为多模态模型,可以上传图片、文字。GPT3只能输入输出文字,所以是单一模态的模型,但是目前openAI已经不提供GPT-3及以前的模型了。
