开篇：

AI什么东西？从2022年12月左右，听说有个ChatGPT，让业界说的都快飞起来了。人工智能时代到来了

历史：

行动一：简单冲浪了一下，说的就是这玩意open ai（简单理解为智能对话），发现海外是有界面访问，接口提供，但国内被禁止访问，根本接触不到。

行动二：不妨试试，从git上下载了个open ai的源码，从经常逛外网的朋友那里，获取到了接口Keys，运行起来，发现国内接口没有被限制，部署到个人服务器，自己happy起来。

行动三：个人服务器跑了一段时间，发现接口被限制了，再次放弃行动。

行动四：公司要求研究AI方向的东东，这已经是2023年5月份了吧，通过之前的经验，自己申请了几个open ai的接口秘钥，搭建服务，并对接微信公众号自动回复，为了领导方便看，从git下载了前端页面，直接部署，算是简单交付。

行动五：工作期间，开始深入研究，发现不仅聊天领域有所突破，stable disffusion 这玩意也挺厉害，智能产图（开源软件），通过一句话的描述，什么图片都能生产，都没有规避风险，比如涉黄涉暴等。这玩意可以嵌入各种插件，比如动作模型、转换视频等，但界面复杂度太高，对于GPU要求也高，产图能力基于机器厉不厉害，玩了一段时间，修复了几个老照片，制作了截个卡通图，就放弃了。主要图形、视频方面的知识涉猎太少，真心不懂。（硬件要求不高，想要快另说，外网下载模型各种模型，如v1-5-pruned.safetensors）

行动六：公司要求研究AI GC方向的东东，提到数字人，自动直播等等，好家伙，无知者无畏，我刚听到就感觉要玩大了，这怎么搞，哪一方面的技术难点都很难，文字转语音、音色克隆、LLM大语言、面部表情、动作等，哪一个都够我喝一壶，绝逼玩不了的，毕竟我也是一个小卡拉米。

行动七：硬着头皮就干，发现了一些好东西，都支持离线部署，比如 MockingBird（克隆音色）、SadTalker（音频+图片，制作视频）、ChatGLM2-6B（大语言模型）、Whisper（语音转文字），这几个感觉如果有一定能力，肯定能搞定机器人。核心思路：第一步，通过MockingBird（克隆音色）克隆真人的音色，通过文本生产本人的音频数据，第二步，通过SadTalker（文本+音频+图片，制作视频）编写文本外带本人照片，并将第一步生产的音频，进行制作成视频，第三步，直播中互动的对话音频，通过Whisper（语音转文字）进行语音转换成文字，并交付给ChatGLM2-6B（大语言模型）进行对话生成文字，再循环以上内容。思路挺好，到效果不理想，每一个开源软件的实际效果，都做不到很好，比如MockingBird 克隆的音色，较多的杂音，太差劲，SadTalker（音频+图片，制作视频），只有头部效果相对难看，略显生硬，全身动作表现更差劲，头跟身体都被分开了。相对来说Whisper（语音转文字）表现不错，但对方言（非普通话）识别度不高。ChatGLM2-6B（大语言模型），表现相当不错，之前使用gpt3.5，感觉差不多，但硬件要求GPU16G起步或32G内存。

动作八：各种尝试后，就Y一个人，最现实的思路，就是能把ChatGLM2-6B（大语言模型）、Whisper（语音转文字）用到业务系统，就算不错了，不做梦，不去拯救地球了。

动作九：Whisper（语音转文字），部署到本地，先进行安全测试，效果测试。比如，断网情况下是否能转义，拿公司的通话记录进行测试速度。发现断网也能用，并发不理想，16G内存的机器，串行执行就行了，如有GPU，速度就快了，可以多任务同时搞，这得自己写python代码。（差不多2023年10月份左右）

动作十：ChatGLM2-6B（大语言模型），部署到本地，还是先进行安全测试，效果测试。比如，断网可用，32G内存，慢死了，16G GPU（v100），相对快点，人多了，也是卡的一逼。

动作十一：刚有点成效，突发发现，各种大模型都出来了，ChatGLM3、Baichuan、Qwen、Yi，好家伙，把我忙坏了，在huggingface各种下载模型，一个模型都得10多G，搞着搞着感觉精力不够了。

动作十二：网上冲浪，发现langchain框架，git有开源的代码，下载下来，搞起来，未来就不用每个大模型都要搞他的前端与接口了，挺不错。

动作十三：Langchain-Chatchat-master，什么东东，这么牛皮，感觉之前自己看来看去的东东，都被他按在地上摩擦，搞下来研究一下吧，知识库、向量数据库、向量模型、文件读取等等，知识面有点超预期。

动作十四：向量模型bge-large-zh，elasticsearch向量数据库，doc、xlsx、html、txt、pdf等文件读取等等，各种恶补知识点。

动作十五：Langchain-Chatchat-master，搭建公司知识库，进行安全测试，效果测试。发现问题，读取文件不好使，有些需要联网，有些需要安装本地东东，比如LibreOffice、MinGw。

动作十六：doc、xlsx、html、txt、pdf基本的文件，断网情况下已可以使用，就是慢点，知识库通过喂文档，测试效果中.....

总结：

1、贪多嚼不烂，一步一个脚印，都是开源，满世界都是学习渠道，静下心来，多看长文章。

2、个人实力不允许，尽量背靠大树，尤其采购服务器、外网访问等问题很严重，不能外网访问，啥都搞不了，没有硬件，无米之炊。

访问权限

创建人	ada1988
文档编辑权限	创建者私有
文档阅读权限	来自分类
分类阅读权限	所有人
分类编辑权限	所有人
分类审核权限	无

标签

历史版本

修改日期	修改人	备注
2024-01-19 16:53:34[当前版本]	ada1988	样式修改
2024-01-19 16:52:00	ada1988	样式变动
2024-01-19 16:51:18	ada1988	CREAT