AI发展史:从萌芽到未来,一文看懂人工智能的前世今生
每天早上睁开眼,我们就会看到各种AI新闻。大模型、智能体、AI应用这些词铺天盖地。很多人心里都有疑问:AI到底是什么?它咋就突然这么火了?我该怎么用它?
这篇文章就从头到尾,把AI的发展历程捋一遍。我会用最直白的话,把那些听着高大上的技术概念讲清楚。
一、AI的源头:人类想造个会思考的机器
人类大脑有多厉害
人类能成为地球的主宰,全靠大脑。我们的大脑有860亿个神经元,这些神经元像网一样连在一起,组成了复杂的神经网络。正是这个网络,让人能说话、能思考、能创造、能发明。
但人脑有个毛病:记性差、效率低。让你背1000个数字,你能疯掉。算100遍乘法,你准得烦。所以人类就想:能不能造个机器,替我们干这些累人的活?
第一台计算机诞生
1946年,第一台计算机问世。这机器算得快、存得准,让它算1000遍乘法,眨眼的功夫就搞定。但它只会听话不会思考。你问它这些乘法有啥规律,它就傻眼了。
科学家琢磨:人脑厉害不是因为神经元多,而是因为这些神经元互相连着,能自己学习、自己找规律。那能不能模仿人脑,也造个"机器神经网络"?这个想法,就成了AI的起点。
二、AI的出生期(1956-1989):只会死记硬背的小学生
AI这个名字咋来的
1956年,一群科学家开了个会,头一回提出"人工智能"这个词。他们的目标很明确:让机器像人一样思考。
那啥是人工智能?说白了就是:让机器能"感知、思考、决策、执行"。
拿过马路举个例子:
感知:眼睛看到红灯,耳朵听到汽车声
思考:红灯亮了,现在不能过
决策:等绿灯再走
执行:绿灯亮了,迈腿过马路
让机器也这么干,第一个难题就是:机器听不懂人话。这时候就需要"自然语言处理"(NLP)出场了。
自然语言处理是啥
自然语言就是人说的话,比如中文、英文。自然语言处理就是教机器"听懂人话、说人话、看懂人写的字、写人能看懂的内容"。
有了这个,人和机器就能唠嗑了。
早期AI咋工作的
咱们看个最简朴的机器翻译。比如翻译"The apple is red":
第一步:查词典。The=这,apple=苹果,is=是,red=红色的
第二步:套规则。英语"主词+is+形容词"对应中文"主词+是+形容词+的"
结果:"这苹果是红色的"
这话对不对?意思都对,但人一般不这么说。我们会说"这个苹果是红的"或"苹果很红"。
问题出在哪?机器只会死板地套规则,没有语感,不懂变通。这阶段的AI,就像个只会背课文的小学生,超出课本内容就抓瞎。我们管它叫"规则式AI"。
三、AI的成长期(1990-2016):会刷题的中学生
机器学习来了
这阶段冒出个重要概念:机器学习。
啥是机器学习?就是让机器自己从数据里找规律,不再全靠人给它定规则。
拿垃圾邮件过滤举个例子:
以前按规则来:标题带"免费"俩字就标垃圾邮件。这法子太死板。人家改成"免-费"或"Free",规则就废了。还得手动加新规则,累死个人。
用机器学习咋整?
第一步:给机器2000封邮件,1000封垃圾的,1000封正常的,都标好类别。
第二步:机器自己翻这些邮件,发现:垃圾邮件里"免费""优惠""发票"这些词出现得多;正常邮件里"会议""项目""放假"出现得多。
第三步:新邮件来了,标题是"关于国庆放假的通知"。机器一看,"放假""通知"跟正常邮件关系近,"免费""优惠"一个没有。得,这是正常邮件。
啥是AI模型
机器自己总结出的这套规律,就是AI模型。模型三大块:
输入:接收新数据(来封新邮件)
处理:用学到的规律做判断
输出:出结果(这封是垃圾还是正常)
刚才那个例子,我们给了机器标好类别的邮件让它学,这叫"监督学习"。
这阶段的AI,像个靠刷题总结规律的中学生。生物题刷多了,生物考试考得不错。但要换成物理题,没刷过的就不会了。我们管它叫"统计式AI"。
四、AI的爆发期(2017年至今):读遍天下书的大学生
成长期的AI有个大毛病:偏科严重。超出训练数据范围就抓瞎。这个问题咋解决?
模型架构一路升级
还是拿垃圾邮件说事。
最早是规则式AI,死板。
后来用朴素贝叶斯模型,但只会拆词,不懂句子意思。"钱转给你"和"你把钱转走",在它眼里都是"钱""转",分不清好坏。
接着有了RNN架构(循环神经网络)。它能逐词读句子,记住前面内容,有了上下文概念。但它有健忘症,邮件一长,读到结尾忘了开头。
然后是CNN架构(卷积神经网络)。它看相邻几个词,能抓住局部特征,效率高了。但它眼光窄,看不到全文。一封邮件前面正经八百,最后夹带诈骗链接,它可能放过。
Transformer架构:革命性突破
2017年,谷歌团队发了篇论文《Attention Is All You Need》,Transformer架构诞生。
它咋工作的?
拿封可疑邮件说事:"尊敬的客户,恭喜您获得10W奖金!请点击唯一链接领取"
第一,它能同时看所有词,不用一个字一个字读。
第二,它会划重点。发现"奖金"和"链接""领取"关系紧,这"中奖-链接-领取"就是典型的诈骗套路。
第三,它看懂全文意思:群发邮件,拿假中奖当诱饵,目的是让人点可疑链接。
第四,下结论:诈骗邮件,扔垃圾箱。
Transformer最牛的是"自注意力机制"——看一句话时,能瞬间看到所有词,还能判断哪些词之间关系更重要。这成了引爆AI爆发期的关键技术。
大模型横空出世
有了Transformer,OpenAI在2018年推出GPT-1,1.17亿参数。参数就像人脑的神经元,越多越聪明。
之后一路狂飙:
2019年:GPT-2,15亿参数
2020年:GPT-3,1750亿参数
2023年:GPT-4,参数更大,还能同时处理文本和图像
参数规模大了,知识储备足了,不再偏科。这就叫"大模型"。通常参数上10亿就算入门级大模型,现在上百亿才算。
大语言模型是啥
大模型最早的形式是大语言模型(LLM):
大:参数多,训练数据也多
语言:自然语言
模型:能识别规律的计算模型
GPT-3就是典型的大语言模型。后来不光有文本模型,还有文生图、图生视频的各种模型。
无监督学习咋回事
成长期训练模型用监督学习,得人工给数据打标签。但大模型要吃互联网上所有知识,哪能每条都打标签?只能把海量数据喂给机器,让它自己总结规律。这种叫"无监督学习"。
因为用了深度神经网络,这阶段的机器学习也叫"深度学习"。
ChatGPT引爆全民AI
2023年ChatGPT一出来,全世界都炸了。大家头一回真正感受到AI的强大。想问啥就问啥,还能帮干活。
但有人觉得:不就是个聊天机器人吗?
同一时期,Stable Diffusion(SD)面世。这是文生图大模型,输入文字就能出图。
比如输"一只猫在吃饼干",出来一张猫吃饼干的图。
再加点细节:"写实风格,阳光明媚的早晨,一只金渐层猫在草地上用爪子拿饼干吃",出来的图就更精准。
提示词工程
想让AI出好活,提示词得清晰具体。你给的要求越细,它给的答案越好。这门和AI沟通的学问,叫"提示词工程"。
但有个问题:光用文字描述,很难让生成的猫跟我家猫长得一样。
咋办?把我家猫照片发给AI,再加上文字描述,它就能参考着生成了。这就引出另一个概念。
多模态和单模态
以前GPT-3只能输文本出文本,这叫"单模态"。
现在既能输文本又能输图片,还能出图片或视频,这叫"多模态"。简单说就是输入端和输出端能同时处理多种类型的信息。
开源和闭源
大模型还分开源和闭源。
开源模型像SD,代码公开,谁都能用能改。适合爱折腾的技术玩家。
闭源模型像Midjourney、GPT-4,只能通过厂商提供的接口用。适合想省事的普通用户。
两者没好坏之分,开源推动创新,闭源商业化做得好,共同推动AI发展。
智能体来了
用ChatGPT规划个三亚旅行试试:
你:"帮我策划一次三亚旅行"
它给你个模板式行程:第一天到三亚,海边遛弯;第二天...
你:"太笼统了,我要详细计划,人均预算8000"
它给个详细计划,但价格是过时的,还得你自己去查真实价格。
你来回发指令,它只会一步步执行。这就像个听话但没主见的助手。
有没有一种AI,你告诉它目标,它自己就能搞定一切?
这就是"智能体"。
智能体几个关键:能感知环境、能决策、有目标、能自己行动。
啥叫"自主行动"?对比一下就明白:
听话的助手(非自主):
你:"打开冰箱"
它开冰箱
你:"拿西红柿和鸡蛋"
它拿
你:"开火倒油"
它照做
...每一步都得你指挥
靠谱的助理(自主行动):
你:"我饿了,帮我做顿饭"
它自己看冰箱有啥,决定做番茄炒蛋
发现盐没了,自己用酱油替
发现蛋打多了,自己决定多炒个菜
最后端上饭:"做好了,盐没了用了酱油,您尝尝"
智能体就是给大模型装上了手和脚。大模型是大脑,负责想;智能体是身体,负责做。
咋开发智能体应用
我今年做了三个AI项目,大概流程是:
需求确认:想用AI解决啥问题
技术选型:用啥大模型、啥框架
核心开发:写代码
调优测试:让AI更准更好用
上线运营:持续优化
调优最关键,主要用这几个方法:
RAG(检索增强生成)
简单说就是让AI答题前先查资料。没RAG就像闭卷考试,只能凭记忆答。有RAG就像开卷,先去翻教科书再回答,答案更准。
微调
提示词和RAG改的是输入,微调改的是模型本身。好比让学生换种学法,而不是光换考题。
强化学习
让AI自己试错,做对了奖励,做错了扣分。慢慢学会啥该做啥不该做。
大模型的幻觉问题
用AI时你会发现,它有时候一本正经地胡说八道。这就是"幻觉"问题——生成的内容看似合理,其实是错的。
咋办?几个法子:
答案溯源:让它说清楚依据
自我批判:让它自己检查一遍
固定信源:重要信息查固定接口,别瞎搜
要记住,幻觉是现在所有大模型的通病,调优只能减少,不能完全消除。用AI时得多留个心眼。
这阶段的AI,像个读遍天下书的大学生,知识多,也有点实习经验。我们管它叫"深度学习/大模型AI"。
五、AI的未来
AI发展几十年,真正爆发就这几年。背后是三大件成熟了:
数据:这几十年数字化积累的海量信息
算力:云计算、GPU这些硬件跟上了
算法:Transformer架构带来了突破
AI从只会处理文字,到现在能处理图像、视频、音频。从只会生成内容,到能辅助干活,再到探索垂直行业应用。
从规则式AI到统计式AI,再到今天的深度学习AI。从只会背课文的小学生,到知识丰富的大学生。
很多人还在想"咋用AI",其实更该想的是:为啥要用AI?AI现在能干啥、将来能干啥?用了能改变啥?不用会咋样?
以后,AI不再是工具,而是咱们的重要伙伴。
本文内容仅供个人学习、研究或参考使用,不构成任何形式的决策建议、专业指导或法律依据。未经授权,禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载,请保留原文来源信息,不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持!