国产对话机器人ChatGLM,和 GPT-4 诞生于同一天。
由智谱 AI 和清华大学 KEG 实验室联合推出,开启 alpha 内测版。
(资料图片仅供参考)
特别是在追 GPT-4 发布会直播时,他看一下屏幕里的画面,就埋头笑一阵,再看一段,又咧嘴笑一会儿。
从成立起,张鹏带队的智谱 AI 就是大模型领域的一员,定下 " 让机器像人一样思考 " 的愿景。
但这条路坎坷不断。和几乎所有做大模型的公司遇到的问题一样,缺数据、缺机器,同时还缺钱。好在一路走来,有一些机构和公司提供无偿支持。
去年 8 月,公司联合一众科研院所,开源的双语预训练大语言模型GLM-130B,能在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平,也就是后来 ChatGLM 的基座。和 ChatGLM 同时开源的还有个 62 亿参数版本 ChatGLM-6B,千元单卡就可跑的那种。
除了 GLM-130B,智谱另一个有名的产品是 AI 人才库 AMiner,学界大佬都在玩:
这一回和 GPT-4 撞到同一天,OpenAI 的速度和技术,让张鹏和智谱团队都有些压力山大。" 一本正经的胡说八道 " 需要被纠正吗?
ChatGLM 内测后,量子位第一时间拿到名额, 出了一波人肉测评。
先不说别的,几轮测试下来就不难发现,ChatGLM 身上有着包括 ChatGPT、新必应在内都拥有的一项本领:
一本正经胡说八道,包括但不限于在鸡兔同笼问题中算出 -33 只小鸡崽。
对大多数把对话 AI 当 " 玩具 " 或办公助手的人来说,怎么才能提高准确度,是格外被关注和看重的一点。
对话 AI 一本正经胡说八道这回事,可以纠正吗?又真的需要纠正吗?
△ChatGPT 的经典胡说八道语录张鹏在表达个人意见时说,要去纠正这个 " 顽疾 ",是一件本身就很奇怪的事情。
(保证说的每一句话都正确)这件事连人自己都做不到,却想让一个人造的机器不犯这样的错。
关于这个话题的不同看法与不同人对机器的理解息息相关。张鹏看来,抨击 AI 有这一行为的人,可能一直以来对机器的理解都是一丝不苟的,它们非 0 即 1,严苛而精确——持有这种观念的人,潜意识认为机器不应该也不能犯错。
知其然与知其所以然同样重要," 这可能源于大家对整个技术的演进和变化,以及技术的本质没有深入理解。"
张鹏用人的学习作为类比:
AI 技术的逻辑和原理,其实还是在模拟人的大脑。
面对学习过的东西,一是知识本身可能有错,或有更新迭代(如珠穆朗玛峰的海拔);二是学习的知识之间也存在互相冲突的可能了;三是人也总有犯错、犯迷糊的时候,
AI 犯错好比人犯错,原因是缺少知识,或者错误运用了某项知识。
总之,这是很正常的事情。
与此同时,智谱当然关注到了 OpenAI 向 CloseAI 的默默转身。从 GPT-3 选择闭源,到 GPT-4 进一步掩盖架构层面的更多细节,OpenAI 对外回应的两个原因,一是竞争,二是安全。
OpenAI 的用心,张鹏表示理解。
" 那走开源路线,智谱没有竞争和安全方面的考虑吗?"
" 肯定也会有。但难道闭源就一定能解决安全问题吗?我看未必。而且我相信世界上聪明人很多,竞争是促进整体行业和生态快速往前推进的优质催化剂。"
比如和 OpenAI 同台竞技,哪怕只是奋起追赶,也是竞争中的一环。
这里的追赶是在陈述过程,建立在认为 OpenAI 研究方向是通往更远目标路径上的必经之路,但追赶上 OpenAI 并不是最终目的。
追赶上,不代表可以停下;追赶过程,不代表要原样照搬硅谷模式,甚至可以发挥中国调动顶层设计集中力量办大事的特色和优势,才有可能去弥补发展速度上的差异。
虽然有 2019 年至今 4 年多的经验,但智谱还不敢给出什么避坑指南。不过,智谱了解大致对的方向,这也是智谱透露的正在和 CCF 聊的共同想法——
大模型技术的诞生,是一个非常综合、复杂的系统化工程。
它不再是几个聪明的脑袋在实验室里琢磨,掉几根头发,做点实验,发点 paper 就了事。除了原始的理论创新,还需要很强的工程实现和系统化能力,甚至还需要很好的产品能力。
就像 ChatGPT 这样,选择合适场景,设定和封装一个上到 80 岁、下到 8 岁都能接触使用的产品。
算力、算法、数据,具体到背后都是人才,尤其是系统工程的从业者,重要程度远远大于往日。
基于这种认知,张鹏透露道,在大模型领域中加入知识系统(知识图谱),让二者像左右脑一样系统工作,是智谱在研究和实验当中的下一步。
GitHub 最火双语对话模型
ChatGLM 整体参考了 ChatGPT 的设计思路。
也就是在千亿双语基座模型GLM-130B中注入代码预训练,通过有监督微调等技术,实现人类意图对齐(就是让机器的回答符合人类价值观、人类期望)。
背后 1300 亿参数的 GLM-130B,由智谱和清华大学 KEG 实验室共同研发。不同于 BERT、GPT-3 以及 T5 的架构,GLM-130B 是一个包含多目标函数的自回归预训练模型。
去年 8 月,GLM-130B 对外发布,同时开源。Standford 报告中,它的表现在多项任务上可圈可点。
对开源的坚持,源于智谱不想做通往 AGI 道路上孤独的前行者。这也是继开源 GLM-130B 后,今年继续开源 ChatGLM-6B的原因。
ChatGLM-6B 是模型的 " 缩小版 ",62 亿参数大小,技术基底与 ChatGLM 相同,初具中文问答和对话功能。
持续开源,理由无外乎两点。
一个是希望把预训练模型的生态做大,吸引更多人投入大模型研究,解决现存的很多研究性问题;
另一个是希望大模型作为基础设施沉淀下来,以帮助产生更大的后续价值。
加入开源社区确实很吸引人。ChatGLM 内测的几天内,ChatGLM-6B 在 GitHub 上已有 8.5k 星标,一度跃升trending 排行榜上的第一位。
从本次对话中,量子位还从眼前这位从业者身上听到这样的声音:同样 bug 频出,但人们对 OpenAI 推出的 ChatGPT,和对谷歌对话机器人 Bard、百度文心一言的容忍程度差别明显。
这既公平,又不公平。
从纯技术的角度来说,评判标准不一,这是不公平所在;但谷歌、百度之类的大厂,占据更多资源,大家天然觉得它们技术实力更强,做出更好的东西的可能性更高,期待值就更高。
" 希望大家可以给更多的耐心,无论是对百度,对我们,还是其他机构。"
除了上述内容,在本次谈话中,量子位还和张鹏具体聊了聊 ChatGLM 的体验感受。下面附上对话实录。为了方便阅读,我们在不改变原意的基础上做了编辑整理。
对话实录
量子位:内测版本给自己打的标签好像没那么 " 通用 ",官网给它的适用领域框定了三个圈,教育、医疗和金融。
张鹏:这跟训练数据没什么关系,主要是考虑到它的应用场景。
ChatGLM 和 ChatGPT 类似,是一个对话模型。哪些应用领域天然更接近对话场景?像客服,像医生问诊,或者比如线上金融服务。这些场景下,更适合 ChatGLM 的技术去发挥作用。
量子位:但医疗领域,要看病的人对 AI 的态度还是比较谨慎的。
张鹏:肯定不能直接拿大模型往上怼啊!(笑)想要完全替代人类,还是要慎重。
现阶段不是用它去代替人工作,更多的是辅助作用,给从业者提供建议来提升工作效率。
量子位:我们把 GLM-130B 的论文链接扔给 ChatGLM,让它简要概括一下主题,它叭叭半天,结果说的根本不是这篇。
张鹏:ChatGLM 的设定就是不能获取链接的东西。倒不是技术上的困难,而是系统边界的问题,主要是从安全角度考虑,不希望它任意访问外部链接。
可以试一下把 130B 的论文文字 copy 下来扔给输入框,一般不会瞎说。
量子位:鸡兔同笼我们也扔给它了,算出了 -33 只鸡。
张鹏:在数学处理、逻辑推理方面,它确实还有一定缺陷,做不到那么好。内测说明里我们其实写了这件事。
量子位:知乎有人做了测评,写代码能力好像也一般。张鹏:至于写代码的能力,我觉得还行啊?不知道你们的测试方式是什么。但具体也要看跟谁比了,和 ChatGPT 比的话,ChatGLM 本身在代码数据的投入可能就没有那么多。
就像 ChatGLM 和 ChatGLM-6B 比,后者只有 6B(62 亿)的参数,整体能力,比如整体的逻辑性、回答时的幻觉和长度上,缩小版和原版的差距就很明显。
但是 " 缩小版 " 能在普通电脑上部署,带来的是更高的可用性和更低的门槛。
量子位:它有个优点,对新信息的掌握度不错,知道推特现在的 CEO 是马斯克,也知道何恺明 3 月 10 日回归学界的事情——虽然不知道 GPT-4 已经发布了,哈哈。
张鹏:我们做了一些特殊的技术处理。
量子位:是什么?
张鹏:具体细节就不展开讲了。但对时间比较近的新信息,是有办法处理的。
量子位:那透露下成本?GLM-130B 训练一次的成本还有几百万,ChatGLM 进行一轮问答的成本目前压到什么程度?
张鹏:我们大概测试和估算了一下,和 OpenAI 倒数第二次公布的成本差不多,比他们略低一些。
但 OpenAI 的最新报价缩减到原来的 10%,只有 0.002 美元 /750 个单词,这就比我们更低了。这个成本确实是很惊人的,估计他们做了模型压缩、量化、优化等工作,否则不可能降到这么低。
我们也在做相关的事情,期望能把成本压下去。
量子位:假以时日,能和搜索成本一样低吗?
张鹏:什么时候能降到这么低?我也不知道。还需要一点时间。
我之前看过对每次搜索价格平均成本的计算,其实与主营业务相关。比如搜索引擎主要业务就是广告,所以要用广告总收入作为上限来计算成本。这样计算的话,其实要考虑的并不是消耗的成本,而是企业盈利收益的平衡点。
做模型推理需要的是 AI 算力,肯定比搜索这类只用 CPU 算力的成本是要更高的。但大家也在努力吧,很多人提出一些想法,比如持续去做模型的压缩量化。
甚至有人想把模型做一些转化,让它在 CPU 上跑,因为 CPU 更便宜,量更大,跑起来的话,成本下降就会很明显。
量子位:最后还想聊两句人才方面的话题,现在大家都在抢大模型人才,智谱怕招不到人吗?
张鹏:我们从清华 KEG 的技术项目孵化出来,和各个高校的关系一直都不错。而且公司对年轻人来说氛围比较 open,75% 的同事都是年轻人,我这种已经算老家伙了。大模型人才现在确实奇货可居,但我们还没什么招人方面的担心。
反过来,其实我们现在比较担心被别人撬墙角(狗头)。
— 联系作者—
标签:
-
全球快看点丨他们开源了 GitHub 上最火的双语对话模型,还说 AI 胡说八道不需要被纠正
国产对话机器人ChatGLM,和GPT-4诞生于同一天。由智谱AI和清华大学KEG实验室联合推出,开启alpha内测版。这个巧合让智谱AI创始人兼CEO张鹏有一
-
《拳皇》华裔小野马李香绯,唐人街这块还是她说了算
在《拳皇》系列中有那么一位比较独特的存在,那就是来自中华城(唐人街)的李香绯。为什么说这个人物比较特殊呢?就是因为其他来自中国或者和
-
北京西城警方辟谣“多校现场接收小升初简历”:造谣男子被行拘 今日视点
近日,有人在互联网社交媒体编造散布西城区多所学校现场接收小升初简历投递的不实信息,干扰了相关学校正常教学秩序,造成了不良影响。
-
宝宝抓周送什么礼物
宝宝抓周送的礼物,一般来说,宝宝都已经有了自己想要的什么,或者有什么想要的东西,可以考虑一下宝宝喜欢什么,或是买什么,再
-
全球快消息!看不见的真相奇怪的油画攻略_看不见的真相奇怪的油画攻略介绍[多图]
《看不见的真相》是一款最近上线的考验眼力的游戏,里面有着不少关卡需要我们挑战,那么小伙伴们知道奇怪的油画这关怎么过吗?可能有小伙伴不
-
如何制作帆布手提袋_小侄女10岁生日送什么礼物_焦点热文
您的衣橱里总能多放一个手提包——尤其是当您可以用任何喜欢的有趣面料制作自己的手提包时。随着天气变暖,我们如何缝制系列的最新内容让您...
-
砌块|实时
1、砌块是一种比粘土砖体型大的块状建筑制品。2、其原材料来源广、品种多,可就地取材,价格便宜。3、按尺寸大小分为大型、中
-
国内最大液化天然气储罐主体结构完工 将于今年11月投入使用
中国石化天然气分公司青岛液化公司副总经理申永亮:在建造过程中解决了超大型液化天然气储罐的基础建造处理难题,还创新采用了分片预制、整体
-
【华晨宇/马嘉祺/陈卓璇】《知足 (Live)》歌词 声生不息·宝岛季 第三期
演唱:华晨宇 马嘉祺 陈卓璇陈卓璇:当一阵风吹来风筝飞上天空为了你而祈祷而祝福而感动终于你身影消失在人海尽头才发现笑着哭最痛马嘉祺:怎
-
世界热资讯!7名调查美国“毒火车”脱轨事故人员在调查期间生病
据美国有线电视新闻网当地时间3月31日报道,美国疾病控制和预防中心(CDC)证实,有7名美国政府人员在调查俄亥俄州东巴勒斯坦“毒火车”脱...
-
观速讯丨股票中签一般是多少股
股票中签通常是500股或者1000股。在实际的操作中,股票中签的话,投资者多是中一签,只要那种非常大的盘股才能中签两个。通常情况下,打新股的
-
2023年3月31日安徽省丙烯酸丁酯价格最新行情预测
据中国报告大厅对2023年3月31日安徽省丙烯酸丁酯价格最新走势监测显示:2023年3月31日安徽省丙烯酸丁酯(99 9
-
福建森林消防:紧贴实战 练就救援尖兵
(卢文锋)近日,福建省森林消防总队特勤大队紧贴任务实际,在闽侯县桐溪山脚下展开一场模拟地震救援演练,全面检验和锤炼队伍任务处置能力水平
-
美国技术伦理组织要求FTC阻止发布新的OpenAIGPT商用版本
美国技术伦理组织要求FTC阻止发布新的OpenAIGPT商用版本:近日,美国技术伦理组织“人工智能和数字政策中心”(CenterforArtificialInt
-
香港青少年深赣“饮水思源”计划启动 跨境单车游首发活动同时在深举行
读特客户端·深圳新闻网2023年3月26日讯(深圳特区报记者周元春)3月25日,香港青少年深赣“饮水思源”计划在深圳水库粤海税务学创中心启动...
-
天天快资讯丨超级IP青猫出道,东呈互联网化又下一棋
“让大众出行者花更少的钱,住更好一点。”这是长期以来东呈集团与用户沟通的理念。而在3月29日,随着全新品牌沟通形象——青猫超级IP的发...
-
环球通讯!小镇“无声理发师”赢得世界冠军
3月30日,在位于杭州市临平区塘栖镇的晓珍发艺工作室内,聋哑人王晓
-
怎样销售礼品卡 全球报资讯
这样销售礼品卡的方法,销售服务计算和促销展览、销展业业务。企业单位于企业单位、生产、产品、服务服务、企业单位,企业单位、
-
当前热讯:希望《半熟恋人》有剧本,要不然余天超怕是要被骂惨了
希望《半熟恋人》有剧本,要不然余天超怕是要被骂惨了
-
党委组织架构图_党组织架构图模板 快资讯
1、做组织架构图首先要对企业的类型有所有了解,如果你真的一点都不懂的话,去百度搜“组织架构图概念图例及如何创建”或“
-
上海交警积极为境外中国公民办理驾驶证业务提供便利举措 天天快播
根据公安部交通管理局相关部署安排,2023年2月10日起,本市公安警部门推出了三项便利中国公民办理驾驶证业务措施,为不少回国办理驾驶证业务的
-
我用2000字,为你说透未来十年青岛学区房价格走势_环球快讯
我用2000字,为你说透未来十年青岛学区房价格走势
-
【大连】专家走进直播间 开辟服务新路径 今日要闻
本网讯3月28日,大连市农广校邀请大连市现代农业生产发展服务中心(大连市农业科学研究院)苹果专家、正高级农艺师做客直播间,就苹果产业发展
-
世界播报:徐汇交警与萌娃面对面,守护上学平安路
说到“安全”,出行安全绝对是必不可少的一环。为进一步提升孩子们的道路交通安全意识和自我防护意识,积极引导孩子们养成良好的文明交通习...
-
世界热消息:十一组项目集中签约 央企专业化整合再发力
十一组项目集中签约央企专业化整合再发力,央企,国资委,央地
-
天天滚动:海南省社保退休工资如何计算2023
海南省社保退休工资如何计算2023,文就随社保君来简单的了解一下吧。一、海南退休工资怎么算1、基础养老金月标准以当地上年度在岗职工月平均工
-
体操世青赛:中国队获得女子团体第六名
3月30日,中国队选手秦心怡在平衡木比赛中。新华社发(穆斯塔法·卡亚摄)当日,在土耳其安塔利亚举行的国际体联第二届世界青
-
跌落神坛,曾经“香翻”一代人的猪油,为何现在很少见到了?
这个淡黄色的搪瓷碗,是不是看着很眼熟。曾经作为灶台上的常客,它见证了无数中国孩子的成长。虽然搪瓷碗隔热性差且外观简陋,却极其耐用,更
-
全球视讯!北京已有六家“类博物馆”向公众开放
记者今天从北京市文物局获悉,继北京首家“类博物馆”崇德堂匾额博物馆本月挂牌后,29日,北京祥体育博物馆、声音艺术博物馆、国玉印象和田...
-
全球即时:我国成功发射一箭四星,组成国际上首个车轮式卫星编队
新京报讯(记者张建林)2023年3月30日18时50分,我国在太原卫星发射中心使用长征二号丁运载火箭,以“一箭四星”的方式,成功将银河航天承...