AI什么东西?从2022年12月左右,听说有个ChatGPT,让业界说的都快飞起来了。人工智能时代到来了
行动一:简单冲浪了一下,说的就是这玩意open ai(简单理解为智能对话),发现海外是有界面访问,接口提供,但国内被禁止访问,根本接触不到。
行动二:不妨试试,从git上下载了个open ai的源码,从经常逛外网的朋友那里,获取到了接口Keys,运行起来,发现国内接口没有被限制,部署到个人服务器,自己happy起来。
行动三:个人服务器跑了一段时间,发现接口被限制了,再次放弃行动。
行动四:公司要求研究AI方向的东东,这已经是2023年5月份了吧,通过之前的经验,自己申请了几个open ai的接口秘钥,搭建服务,并对接微信公众号自动回复,为了领导方便看,从git下载了前端页面,直接部署,算是简单交付。
行动五:工作期间,开始深入研究,发现不仅聊天领域有所突破,stable disffusion 这玩意也挺厉害,智能产图(开源软件),通过一句话的描述,什么图片都能生产,都没有规避风险,比如涉黄涉暴等。这玩意可以嵌入各种插件,比如动作模型、转换视频等,但界面复杂度太高,对于GPU要求也高,产图能力基于机器厉不厉害,玩了一段时间,修复了几个老照片,制作了截个卡通图,就放弃了。主要图形、视频方面的知识涉猎太少,真心不懂。(硬件要求不高,想要快另说,外网下载模型各种模型,如v1-5-pruned.safetensors)
行动六:公司要求研究AI GC方向的东东,提到数字人,自动直播等等,好家伙,无知者无畏,我刚听到就感觉要玩大了,这怎么搞,哪一方面的技术难点都很难,文字转语音、音色克隆、LLM大语言、面部表情、动作等,哪一个都够我喝一壶,绝逼玩不了的,毕竟我也是一个小卡拉米。
行动七:硬着头皮就干,发现了一些好东西,都支持离线部署,比如 MockingBird(克隆音色)、SadTalker(音频+图片,制作视频)、ChatGLM2-6B(大语言模型)、Whisper(语音转文字),这几个感觉如果有一定能力,肯定能搞定机器人。核心思路:第一步,通过MockingBird(克隆音色)克隆真人的音色,通过文本生产本人的音频数据,第二步,通过SadTalker(文本+音频+图片,制作视频)编写文本外带本人照片,并将第一步生产的音频,进行制作成视频,第三步,直播中互动的对话音频,通过Whisper(语音转文字)进行语音转换成文字,并交付给ChatGLM2-6B(大语言模型)进行对话生成文字,再循环以上内容。思路挺好,到效果不理想,每一个开源软件的实际效果,都做不到很好,比如MockingBird 克隆的音色,较多的杂音,太差劲,SadTalker(音频+图片,制作视频),只有头部效果相对难看,略显生硬,全身动作表现更差劲,头跟身体都被分开了。相对来说Whisper(语音转文字)表现不错,但对方言(非普通话)识别度不高。ChatGLM2-6B(大语言模型),表现相当不错,之前使用gpt3.5,感觉差不多,但硬件要求GPU16G起步或32G内存。
动作八:各种尝试后,就Y一个人,最现实的思路,就是能把ChatGLM2-6B(大语言模型)、Whisper(语音转文字)用到业务系统,就算不错了,不做梦,不去拯救地球了。
动作九:Whisper(语音转文字),部署到本地,先进行安全测试,效果测试。比如,断网情况下是否能转义,拿公司的通话记录进行测试速度。发现断网也能用,并发不理想,16G内存的机器,串行执行就行了,如有GPU,速度就快了,可以多任务同时搞,这得自己写python代码。(差不多2023年10月份左右)
动作十:ChatGLM2-6B(大语言模型),部署到本地,还是先进行安全测试,效果测试。比如,断网可用,32G内存,慢死了,16G GPU(v100),相对快点,人多了,也是卡的一逼。
动作十一:刚有点成效,突发发现,各种大模型都出来了,ChatGLM3、Baichuan、Qwen、Yi,好家伙,把我忙坏了,在huggingface各种下载模型,一个模型都得10多G,搞着搞着感觉精力不够了。
动作十二:网上冲浪,发现langchain框架,git有开源的代码,下载下来,搞起来,未来就不用每个大模型都要搞他的前端与接口了,挺不错。
动作十三:Langchain-Chatchat-master,什么东东,这么牛皮,感觉之前自己看来看去的东东,都被他按在地上摩擦,搞下来研究一下吧,知识库、向量数据库、向量模型、文件读取等等,知识面有点超预期。
动作十四:向量模型bge-large-zh,elasticsearch向量数据库,doc、xlsx、html、txt、pdf等文件读取等等,各种恶补知识点。
动作十五:Langchain-Chatchat-master,搭建公司知识库,进行安全测试,效果测试。发现问题,读取文件不好使,有些需要联网,有些需要安装本地东东,比如LibreOffice、MinGw。
创建人 | ada1988 |
文档编辑权限 | 创建者私有 |
文档阅读权限 | 来自分类 |
分类阅读权限 | 所有人 |
分类编辑权限 | 所有人 |
分类审核权限 | 无 |
修改日期 | 修改人 | 备注 |
2024-01-19 16:53:34[当前版本] | ada1988 | 样式修改 |
2024-01-19 16:52:00 | ada1988 | 样式变动 |
2024-01-19 16:51:18 | ada1988 | CREAT |