【专访】第三波网路革命来了,Google 台湾前董事总经理简立峰:未来人人都要学习 AI 工具,增强生存技能

编按:2023 年生成式 AI 即将引爆网路革命。不只 ChatGPT 走入大众眼帘,年初矽谷更有 3 只生成式 AI 独角兽诞生(Cresta, Stability, Jasper),从文本、程式码生成、图像生成再到语音合成,这些生成式 AI 具有一定程度的「创造力」,在创作上达到了「更快」、「更便宜」的成果,AI 距离超越人类内容创作者,就只差「更好」了。

Google 台湾前董事总经理、Appier 、iKala 董事简立峰在接受《TechOrange》 Podcast 节目〈全新一周〉专访时,白话解释「生成式 AI」,并表示学习使用 AI 工具,是未来所有工作者都必须具备的技能之一。

简立峰在节目中谈论:

  1. ChatGPT 与以往 AI 不同的是:它开始「讲人话」
  2. 台湾如何利用这股趋势并掌握住下一波机会

以下为节目专访逐字稿。

《全新一周》主持人戴季全(以下简称「戴」)

戴:各位听众朋友大家好,我是戴季全,欢迎来到 2023 年全新一周,我们今年有很大的事情 ,有好消息、有更多的坏消息。今年开春第一位邀请的特别来宾就是简立峰,立峰你好!

Google 台湾前董事总经理、Appier 、iKala 董事简立峰(以下简称「简」)

简:季全好,大家好。

戴:我想直接切入一个大重点,我们在去年年底开始有越来越多关於生成式 AI 的讨论,包含语音机器人,应该说语义机器人、文字输入的机器人,是不是可以请立峰——当然立峰包含语义分析、早期搜寻引擎的建置,立峰都参与得非常多——是不是可以从你的专业角度,介绍什麽是生成式 AI,ChatGPT 这个新的机器人,到底和传统语音机器人到底有哪些不一样,或者有哪些可以观察的地方?

简:跟大家报告一下我的背景,我是 30 几年前、1991 年台湾第一个做语言模型的本土博士,等待了 30 几年,出现大型语言模型像 ChatGPT,是一种语言的 machine learning(机器学习)。

过去 AlphaGo 到现在这段时间里,有一种说法是机器学习的能力呢,在电脑视觉能力是赢过人类的,所以你看可以做自驾车,也一直在探讨语言能力,它可以辨识文字、把声音变成文字,对於人类的互动理解,大多数假设是还没有那麽快。

还有一个假设,如果你有看李开复的书,我的好朋友他常提到,人类还有什麽能力是机器不容易取代的?我们都讲说是创造力,那创造跟创作有点不太一样,我们也假设创作能力,机器不是那麽容易,那创作就是文字、图画、音乐的创作这个部分,就是内容的生成。 

AI 开始「讲人话」:未来人人都要学习 AI 工具,增强生存技能

简:媒体业也是内容的生成,我们平常工作里头写信也是内容的生成,可是这次生成式 AI,不管是 ChatGPT 与否,很惊讶地它效果超过原来预期,这个部份如果去解释 ChatGPT 的话,大概用一个字来形容:它开始「讲人话」,和其他的语言模型相比,如果你有留意昨天的 AI 大师,用他的说法是,他不觉得 ChatGPT 有技术上的重大突破,因为方法是来自原来的 transformer,当然大家可以讲说是当时 Google 团队做出来的 transformer,从那边延续过来,但它做一个非常好的整合,而且整合之後让一般人开始理解,电脑可以有阅读能力、回答能力,这件事情在学界、科技界,过去两三年应该已经知道可以到达这个 level 可是系统没做出来了,连做研究的人也没感受到那个威力,所以可以解释说,今年可能是生成式 AI 的重大应用年,我们可以从这里开始。 

(编按:「AI 大师」指 Meta 首席 AI 科学家杨立昆(Yann LeCun))

戴:所以生成式 AI,它的英文是 generative AI 是说,从我的理解,立峰帮我看一下是否理解正确,就是说原本 AI 其实是分析大量资料,去找出 pattern、找出它的模式,增加它辨识的精确度,但生成式 AI 它可以去生成新的 content,包含文字、声音或图像,生成新的东西,我这样理解正确吗?

简:可以这样讲,两个概念:那模型叫 GAN,方法是怎麽去训练它?好像有个老师问它一个问题,它给一个答案,这是好、这是不好。所以生成式 AI 一方面产生内容,但有一段新的学习是在教它这是好、这是不好,让它给出越来越像这老师要的东西、方法。 

可是它的应用面是内容的产生,两个不同面向,内容产生以 ChatGPT 来讲它可以写信、写程式,类似的比如说 Midjourney 它可以画画;音乐、作曲……这些都变成是一种生成式的内容。

老实说生活里这类应用太多了,只是我们没有想到,如果电脑可以做到这个阶段,大量的应用就可以产生,像有一家公司叫 BuzzFeed,它是媒体代理商很出名的一家,它现在就讲说资遣了 10% 的编辑,可是 30% 的内容改用 AI 做。以後大家都要学 AI 工具,加强你的生存技能。 

戴:可以和 AI 合作的编辑比 100% 纯种编辑更有竞争力。 

简:最主要它产出速度太快,它可以做翻译,还可以做摘要。

戴:我有几个思考点可以跟立峰讨论看看,第一个最直接,假设像我们这种内容工作者、编辑为主轴的工作核心要素,它会变成说,其实我看生成式 AI 发展趋势,有两个大家比较不常提到的,一个是说它如果有越多人类老师在教,它才学得好。

生成式 AI 的编辑,它只负责想像跟创造,可是其实对或错还是由人的感受来去判别,讲话得不得体或正不正确,或是能不能够产生有意义或有价值的一些内容。

简:你可以说 AI 进步会比我们快,从现在开始它会更快,比我们个别都快,因为它是所有使用者来教育它,它可以不断地学,而我们每一个人学习都是从个体的角度。

这有点像 AlphaGo 跟人类的围棋高手,现在 AlphaGo 已经是老师,这些高手用它来学,比以前棋艺进步很多,所以对个体来讲我进步了,但 AlphaGo 更厉害了。 

戴:我看到有一些在生成式 AI 前面、丢数据之前,甚至会有另外一组 AI 去做审查的动作,当然严格可以变言论审查,但有时候是审查种族歧视的字眼、侮辱性或太过於暴力、不实的东西,有点像我们脑部运作,例如很多人会发现怎麽有些朋友喝醉了之後英文特别好?其实不是英文变好,大脑怕自己英文讲不好,这个抑制作用被关掉了,所以他就变得敢讲;是敢讲、不是英文变好。 

简:应该是这样讲,人类有个前额叶,所以我们对於任何东西的反应并非单一反应,其实是多元的反应,但前额叶决定最终输出。

例如喝醉酒丧失意志时,这个控制力就变差,可能冒出你原本没想像会有的反应,包括说不定本来潜意识英语就蛮好,但以为自己英文不好就被压抑掉。 

现在 AI 模型也都是这样,一层叠一层、一个模型接一个模型,所以 ChatGPT 绝对不是一个单一模型,它是好多服务整合在一起,所以它对任何一个服务都可以用自动分类去决定说,这是好或不好的回答,也可以自我审查,这样它就可以控制。 

讲成俗话的说法是养小鬼,每个人都可以养成一个生成式 AI,可是要看这种大模型它愿不愿意让你养,因为养一个也很贵,大型企业可以跟 OpenAI 要一个客制化的模型、其他人没办法,你只能跟他要一个一般式模型;一般式模型你就改不了。 

戴:我看到矽谷有几个现象,一个现象是说,根据估计,去年光矽谷跟生成式 AI 相关的新创大概就有 500 家,甚至还有一个统计说,去年一年,投资生成式 AI 的投资额就已经超过去年 5 年整个矽谷 VC 的投资了。 

简:不用太多人就可以新创了,几个厉害的机器学习或 AI 学者、工程师就可以创业,所以它的加速会容易很多,但困难的地方在於有一点进入到……这可以拉回跟台湾有关,生成式 AI 第一个获利的就是台积电,因为你需要大量训练,之後如果晶片速度越快、成本越低,另外你需要大量伺服器,又跟台湾有关。

可是这些新创,创业很容易但很烧钱,这些是需要钱的,反而是这次的发展,资源不是放在人才而是基础建设成本,这件事情最後真正能玩的企业绝对没几家,这些新创最终会被并购掉。

第三波网路革命来袭!台湾要把握机会,找一些应用领域来训练数据

戴:这个过程,至少在我的事业历程里看到两波:第一波是 1996~2000 网路泡沫,里面有很多的新创。第二波大概是 2006、2007 年,就是第一支 iPhone 出来的时候,mobile internet(行动网路)立峰也有同样的感受吗? 这个是网路第三波趋势? 

简:用第三波也可以,我们在几个月前也假设那个第三波叫元宇宙,我那时候就坚持它不是,但这次我会讲说是,但这个波动是不是能够到人人都可以去做这件事情?应该不是。因为网路泡沫时,任何人都可以架网站,mobile internet 门槛也算低,学一下写 App 就可以。

而这次门槛其实是高的,我们看到 ChatGPT,想像说我们有一个就可以做很多事,问题是你没有那东西,那个东西训练一次要一千万美金,训练失败一千万美金就不见了。 

更重要的是找不到人类地球等级的数据量,这个数据平常就要蒐集,蒐集的过程恐怕几亿美金不见,而且现在人家愿不愿意让你蒐集还是个问题,因为 copyright(版权)。

所以大家都只能在巨人的肩膀上做事情,可以探讨说某些国家考虑要不要当那个巨人,用国家级的力量去推动,那大企业肯定就这几家,但是在巨人肩膀上堆积木,它还可以创造前两波应用的可能性,但这些可能性要有一个前提:就是这些大巨人愿意开放部分的东西给你加值, 这个概念不是 call(呼叫)API,因为如果你 call API 去呼叫它,你的资料喂给它,是它的脑在进步,它不会给你客制化。 

你希望是它分一个小脑给你,那个小脑你自己去加值它,大量喂你自己拥有的资料给它,这个发展模式就看哪家公司愿意这样做,有点像是我把现在 ChatGPT 当作客制化模型,每一家企业我给你一个,可是这每一个,从现在 170 个 billion 参数可能要 17 个 billion 参数,每一个可能都要 1000 台机器以上才能运作起来,那就又是大企业才能玩、中小企业没办法。

戴:这个很有意思。从第一波 1996 年开始,当然前面还有 PC 发展,那个时候第一波 IBM 做了一个决策,就是把 CPU 跟作业系统外包,所以就创造了微软、Intel 这两家,两者又组成 Wintel 架构 386、486、586 处理器。讲到那波我在大学,我就是一天到晚跑光华商场玩电脑。 

简:因为台湾也就那个时候可以组电脑,所以才有电脑公司的开启,可是我们电脑里 CPU、OS 不是我们的。

戴:第二波那时商业发展很有意思 Google 并购了 Android 这家公司,但它并没有把它当作是一个商品,它把它 open source(开源)掉,所以现在反而变成全世界最多消费性运算单位 ,也就是智慧型手机,几乎没有微软的作业系统,大部分都是 Android 类。

简:包括 Chrome 也一样,Chrome 也是开源,才那麽快可以超越 IE。

戴:所以第三波的 AI,当我们往回看第一、二波的经验,其实我自己判断,很有可能跟立峰你刚刚讲的一样,不只是开放 API 而已,它会开放一些不同的,因为它跟大脑突触运作有关 ,有些处理视觉、听觉、语言,有些处理跟大脑小脑的沟通;不同的世界、处理的任务不同时,脑部的电脑断层会亮的地方不一样…… 

简:所以这是为什麽我们真正叫它「电脑」,它原来叫 computer,但我们台湾把它翻译为电脑:electronical brain,这是第一次它真的变「大脑」,而这个大脑可以去买合适你的那个脑。

我估计如果你刚刚讲第三波创造性,必然就是说,最强的它还是维持封闭的脑,透过 API 给你用;第二三四五名的可能会采取开源,像这波的科技发展为什麽那麽快?跟 Google  BERT 模型 open source 有很大的关系,训练好之後连大学生、中学生都可以下载小的参数模型,就可以做好多事情。 

我估计它还是两条路:一条是 iPhone 走的封闭式路,一条是 Android 走的开放式路,那我们可以拭目以待,有很多(公司)选择开放、更强的公司选择封闭。 

戴:这个就是商业策略跟发展策略上面的差异。

简:那如果要做应用,现在就要把握机会,要学会有一点叫 hybrid mode(混合模式):怎麽去应用已经有 API 可以 call 的模型,你可以运用多模型,不要绑在一个模型上,因为绑在一个模型它策略会改变,可能太贵、你也改不动它,可是在这个多模型里头,你还要再加上自己的 open source 找得到的模型,来训练自己的东西,慢慢就变成说,我们脑有好多 ,大脑小脑延脑,我们自己去兜,兜那个脑。

戴:也就是说其实是不同的 pair(配对),譬如说我们作为企业主,每个人角色不一样,有些可能是消费者、有些可能是 B2B,是可以在这样的趋势里去组合出……像立峰说的养小鬼,或者说养一个虚拟的、看不见的助理,或是一个帮你判断或思考的 AI,用户的分析、行为的分析,甚至生成内容做客服、做 Content 等等。

这个对台湾来说,台湾有哪些机会是可以留意的?

简:比较困难的问题来到软体应用面里头,我们在云端化的速度过去两年有加快的现象,但还不够快。另外一个我们在应用创造里头,数据的累积不管是 B2B、B2C 也都不够快,虽然有进步,但全球来讲规模都不够大。 

这种情形下 AI 应用是我们一个新的机会,但这个新机会里头,我们旧的底子不好,没有太多的数据可以来训练——假设今天要养小鬼,你也要有东西给它、要有食物喂它啊,这个食物都还没准备好,别的地方马上就变大鬼了,我们还在小鬼阶段,这是先天不足的地方。 

可是後生可畏、可以再追的原因就是说,它这个 legacy(既有做法)突破了,它又是重来一次,重来一次就是说这波养小鬼的,它擅长的东西是 AI machine learning(AI 机器学习),那不是在十年前、二十年前,可能擅长是电子商务、数位行销的时代,它又是另外一批专业的人,所以概念上来讲,大家的立足点,虽然我们先天还不够好,但重跑一次不见得会比较差,这是一个条件。 

另外一个就是,成功的企业会越来越少、越集中在几个大的,我们本来是属於在 AI 的中小型,反而跟越来越多的国家地位是公平的:这个逻辑是说,成就成大企业的公司根本不会太多,接下来还是中小型的 AI 企业,这种情形下,台湾恐怕不用再去追求大型的 AI 企业,因为那个数量级不是我们能玩的。 

这个概念就很像说,我们的手机自己做,做到後来为什麽没办法拥有世界级的手机?HTC 曾经那麽好过,为什麽没有办法? 是因为如果你把手机生产当成本是不够的,你要做行销当成本才是关键。行销费用最後比生产贵非常多,台湾就跟不上了。跟不上之後我们在做手机,本来有好多都可以做,到後来我们手机就变成一个不是大型的产业。 

逻辑上一样的概念,这次的军武竞赛里,大型 AI 只会越来越大,因为它的科技证明一件事情、ChatGPT 证明一件事情:训练资料量大就是有用。我们现在人类可以喂给那个脑的数据量还不够,所以你现在垃圾丢进去都有用。 

那这种情形下,有一点是说,它会形成 Apple 这种等级的,还是你去拿联发科的公版自己加个壳就当手机,也可以,看我们要定位在哪,但是在应用上就要慎选应用。

选应用场景里头我们有使用者可以互动,短期间累积比较多的使用者互动 ,就有东西养小鬼,这个互动多的应用领域里头,也许我们现在还可以追,因为序幕才刚刚开始。

戴:我懂,也就是说其实我们不用一直去看国外怎麽做,然後想要去做一样的事情,反而是说我们有个新的机会,去看说如果我们有哪些金山、银山、live data(即时数据),因为我们数位转型虽然有加速但还不够快,数据蒐集的质或量都还不够好,反而事先盘点、先看我们的痛点,或甚至我们的甜蜜点,我们先看这两个点,在数据上面自己有相对优势的数据。

把这些应用先设定好之後,去尽快地把这些数位转型、数据蒐集、AI 的生成,趁这波浪潮,大家都在同样起跑点的时候,去找出局部相对优势,这样就有可能除了原本的伺服器、晶片制造之外,可以再多一些中小型的生成式 AI 服务或应用。

简:我举例来讲,假设今天 OpenAI 愿意开放一个开源版本出来,虽然这个脑比较小一点,这时台湾就要把握机会,找一些应用领域来训练数据,举例来讲,政府服务的 1966 把它过去有累积的建档、那些 QA 希望它有建档,问题就出在这里,如果它没有建档,那我们就是浪费十年。 

如果它有建档,机会来了,因为学理上告诉我们,你把现在所谓的变形金刚 transformer 式的——ChatGPT 就是一个变形金刚——这种模型转换到一个新模型,它资料量不用多、它学得很快,但还是要有一定的资料量,在这种情形下,比如说要几十万句几百万句的互动 ,大概是这种概念,我们就要去寻找说,我们现在哪里拿得到?

比如说银行客服的量可能是够的,可是它当时有没有建档?我要的是一个测试可以训练,这个动作反而是该准备的,每一家企业都该去准备,因为看起来,来的时候也很快它就到了。

戴:我原本真的很窄化地以为生成式 AI 冲击的是比较偏 Content,可是我听你这样讲起来,它生成的概念——对,你在摇头,因为我们是 Podacst,听众看不到你摇头——generative AI 它又没有说它只有生成 Content,因为你看,我们原本 AI 假设放在医疗里面,过去在讲 MedTech…

对,过去 AI 只是说,比如可以提升 X 光片诊断的精确度,它只是辨识这张 X 光片可能是肺癌第零期,它可以看出很多、告诉你一些 facts(事实),生成式 AI 有个潜在的可能性,我要跟立峰很慎重确认一下,它不是只能做 X 光片的判断,不是只能分析…… 

简:可以跟你聊病情啊、互动。

戴:对,第一个它可以互动,第二个它甚至可以给一些可能的 solution,它可以给疗法耶。

生成式 AI 不只是影响「内容生成」,而是「对话」领域

简:对,虽然说现阶段它有很多问题,等一下有空可以聊它的缺点在哪里、它的限制在哪里,但至少是这样,生成的概念,我刚刚说「讲人话」,那人讲话在干嘛 ?哇,多了,医生讲话在回答病人、法官可以判案,这都是讲人话啊,所以 AI 在影响的是,我们叫做「对话」 dialogue 领域,不是 content generation(内容生成)而已,是「dialogue」。

戴:这一则以喜一则以忧,喜的是,不是只有我们这个行业要担心;每个行业都有它的机会,甚至连商业策略、治疗的策略、方案等等。 

简:大家想像中可以用到那里 但是大家最後会很挫折是,为什麽 ChatGPT 这麽强,为什麽我的公司没办法用?原因就是你的特定用途,每一字每一句互动都希望回到你的应用。 

今天 ChatGPT 就是一个维基百科,可是一个有学问的小孩子不会拿它来做什麽事,因为它回答有点无聊,你真的要他开个门、关个门,它不能开又不能关。

所以这个大脑用到每个应用之间有一个过程,新创要做的就是这个过程,不要再去玩那个大脑,全世界只有少数几家来做就可以,但是你要把这个大脑,有能力把它分离出来,用到你的应用里头,成功训练出来,那就很厉害。所以我觉得现在云端服务公司,开始应该要往这里做,帮人家训练脑。

戴:我真的觉得在网路业是很幸福又很兴奋的事情。立峰你刚刚讲「讲人话」,比如下命令就是一种人话。

像现在 ChatGPT 把这个大脑,不要说它分出来,应该说它另外长、给了一些突触让你另外长,某些东西训练够成熟可以到下指令,即便是开关门,像我们几乎每天或常常会碰到的状况是,我们会按门铃说是谁?99% 的人都会说是我,不会讲名字,所以听的那个人其实是在辨识这个声音:是我妈妈、女儿,还是谁?

这事情如果之後由 AI 来做,它就变成声纹钥匙,这就是生成式 AI 要去下指令,不只是辨识是或否,然後来决定开或关。

简:是,但这又是我们在看 AlphaGo 很聪明,就以为它什麽都会的逻辑一样。

生成式 AI 在每个应用里头又需要重新训练好多东西,而且它牵涉到外部装置,所以它是一个物联网整合,开跟关也没想像中那麽顺利,因为每个装置长得不一样,这都是漫长的过程。

可是大方向来讲,科技技术方面它有可能做得到,光这件事情投资就起来了,所以今年有没有什麽好消息?有,就是生成式 AI 应用年,所以很多新创现在又活下来。

去年可能元宇宙喊一喊没了、Web3 还有点走下坡,还不太确认虽然还有机会,生成式 AI 那些创投又有钱可以搬了,因为对人类说人话,那就让创投可以说故事;创投跟你说故事,银行的钱就可以搬出来,对於全世界的投资方向来讲就有一点眉目。

(本集内容的图片与音讯都由编辑与 AI 协作完成,首图来源:dream.ai)

以上为专访部分逐字稿,想要知道更多精采内容吗?收听并关注〈全新一周〉:第三波网路革命来了:2023 将是生成式 AI 爆发年!|S2 EP61 Ft.简立峰

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x