作者:ada1988于 2024年01月19日 发布在分类 / 我的世界 / 知识 下,并于 2024年01月19日 编辑
    AI开篇之历史过往

       2

       0


    开篇:

    AI什么东西?从2022年12月左右,听说有个ChatGPT,让业界说的都快飞起来了。人工智能时代到来了

    历史:


    行动一:简单冲浪了一下,说的就是这玩意open ai(简单理解为智能对话),发现海外是有界面访问,接口提供,但国内被禁止访问,根本接触不到。


    行动二:不妨试试,从git上下载了个open ai的源码,从经常逛外网的朋友那里,获取到了接口Keys,运行起来,发现国内接口没有被限制,部署到个人服务器,自己happy起来。


    行动三:个人服务器跑了一段时间,发现接口被限制了,再次放弃行动。


    行动四:公司要求研究AI方向的东东,这已经是2023年5月份了吧,通过之前的经验,自己申请了几个open ai的接口秘钥,搭建服务,并对接微信公众号自动回复,为了领导方便看,从git下载了前端页面,直接部署,算是简单交付。


    行动五:工作期间,开始深入研究,发现不仅聊天领域有所突破,stable disffusion 这玩意也挺厉害,智能产图(开源软件),通过一句话的描述,什么图片都能生产,都没有规避风险,比如涉黄涉暴等。这玩意可以嵌入各种插件,比如动作模型、转换视频等,但界面复杂度太高,对于GPU要求也高,产图能力基于机器厉不厉害,玩了一段时间,修复了几个老照片,制作了截个卡通图,就放弃了。主要图形、视频方面的知识涉猎太少,真心不懂。(硬件要求不高,想要快另说,外网下载模型各种模型,如v1-5-pruned.safetensors)


    行动六:公司要求研究AI GC方向的东东,提到数字人,自动直播等等,好家伙,无知者无畏,我刚听到就感觉要玩大了,这怎么搞,哪一方面的技术难点都很难,文字转语音、音色克隆、LLM大语言、面部表情、动作等,哪一个都够我喝一壶,绝逼玩不了的,毕竟我也是一个小卡拉米。


    行动七:硬着头皮就干,发现了一些好东西,都支持离线部署,比如 MockingBird(克隆音色)、SadTalker(音频+图片,制作视频)、ChatGLM2-6B(大语言模型)、Whisper(语音转文字),这几个感觉如果有一定能力,肯定能搞定机器人。核心思路:第一步,通过MockingBird(克隆音色)克隆真人的音色,通过文本生产本人的音频数据,第二步,通过SadTalker(文本+音频+图片,制作视频)编写文本外带本人照片,并将第一步生产的音频,进行制作成视频,第三步,直播中互动的对话音频,通过Whisper(语音转文字)进行语音转换成文字,并交付给ChatGLM2-6B(大语言模型)进行对话生成文字,再循环以上内容。思路挺好,到效果不理想,每一个开源软件的实际效果,都做不到很好,比如MockingBird 克隆的音色,较多的杂音,太差劲,SadTalker(音频+图片,制作视频),只有头部效果相对难看,略显生硬,全身动作表现更差劲,头跟身体都被分开了。相对来说Whisper(语音转文字)表现不错,但对方言(非普通话)识别度不高。ChatGLM2-6B(大语言模型),表现相当不错,之前使用gpt3.5,感觉差不多,但硬件要求GPU16G起步或32G内存。


    动作八:各种尝试后,就Y一个人,最现实的思路,就是能把ChatGLM2-6B(大语言模型)、Whisper(语音转文字)用到业务系统,就算不错了,不做梦,不去拯救地球了。


    动作九:Whisper(语音转文字),部署到本地,先进行安全测试,效果测试。比如,断网情况下是否能转义,拿公司的通话记录进行测试速度。发现断网也能用,并发不理想,16G内存的机器,串行执行就行了,如有GPU,速度就快了,可以多任务同时搞,这得自己写python代码。(差不多2023年10月份左右)


    动作十:ChatGLM2-6B(大语言模型),部署到本地,还是先进行安全测试,效果测试。比如,断网可用,32G内存,慢死了,16G GPU(v100),相对快点,人多了,也是卡的一逼。


    动作十一:刚有点成效,突发发现,各种大模型都出来了,ChatGLM3、Baichuan、Qwen、Yi,好家伙,把我忙坏了,在huggingface各种下载模型,一个模型都得10多G,搞着搞着感觉精力不够了。


    动作十二:网上冲浪,发现langchain框架,git有开源的代码,下载下来,搞起来,未来就不用每个大模型都要搞他的前端与接口了,挺不错。


    动作十三:Langchain-Chatchat-master,什么东东,这么牛皮,感觉之前自己看来看去的东东,都被他按在地上摩擦,搞下来研究一下吧,知识库、向量数据库、向量模型、文件读取等等,知识面有点超预期。


    动作十四:向量模型bge-large-zh,elasticsearch向量数据库,doc、xlsx、html、txt、pdf等文件读取等等,各种恶补知识点。


    动作十五:Langchain-Chatchat-master,搭建公司知识库,进行安全测试,效果测试。发现问题,读取文件不好使,有些需要联网,有些需要安装本地东东,比如LibreOffice、MinGw。


    动作十六:doc、xlsx、html、txt、pdf基本的文件,断网情况下已可以使用,就是慢点,知识库通过喂文档,测试效果中.....

    总结:


    1、贪多嚼不烂,一步一个脚印,都是开源,满世界都是学习渠道,静下心来,多看长文章。
    2、个人实力不允许,尽量背靠大树,尤其采购服务器、外网访问等问题很严重,不能外网访问,啥都搞不了,没有硬件,无米之炊。



    访问权限

    创建人 ada1988
    文档编辑权限 创建者私有
    文档阅读权限 来自分类
    分类阅读权限 所有人
    分类编辑权限 所有人
    分类审核权限
    标签

    open ai | ChatGLM2 |ChatGLM3 |Baichuan|huggingface|LibreOffice|Langchain
    历史版本

    修改日期 修改人 备注
    2024-01-19 16:53:34[当前版本] ada1988 样式修改
    2024-01-19 16:52:00 ada1988 样式变动
    2024-01-19 16:51:18 ada1988 CREAT
    同类知识
    相关知识

    冀ICP备20003189号