2024年1月30日下午,我全程观看了讯飞星火V3.5发布会,很是震撼。
刘庆峰和刘聪博士讲过的那些主要亮点就不提了,星火的各种荣誉也不谈了,我说几个把我震撼到的细节。
1、多轮连续对话功能
星火大模型有个“对话助理”,它讲话的声音、语调、声线、节奏……以及语言组织的逻辑,完全听不出来是机器,就感觉手机对面是个真人。
而且这个“人”,还可以切换东北话等特色方言。
当天,我下载进行了体验,就我的感受来看,这个功能已经可以媲美GPT-4。哦不,在中文的环境下,比GPT-4更好。
2、自动制作PPT
几个月前,我发了一条社交网络动态,期待大模型可以自动做PPT,解放职场人。
没想到,仅仅两三个月时间,就被讯飞星火给搞定了。刘聪现场演示了这项功能,你不需要懂美工和排版,也不需要各种使用技巧,动动嘴皮子就能生成PPT。当然,也可以上传参考资料,进一步丰富ppt。
甚至,还可以让虚拟数字人,播报PPT。这一点更强大,解放了社恐的职场人(开个脑洞,咱们自己做的ppt,也可以让虚拟人播报)。
这几个月大模型都在拼多模态,啥叫多模态,这就是多模态的呈现之一。未来星火只会越来越强大,强大到可以做视频。我在想,以后让星火大模型,给我们输出媲美大部分真人制作的视频内容,还远吗?
3、读懂图片
大模型画图的能力现在是标配了,但读图的能力普遍不太好。
升级后的星火大模型能读懂各种图片,比如考试卷子、房间户型、生活场景等。
我在想,至今有很多甲骨文还没有被我们识别、破解,是否可以大模型解决这个难题呢?
或者,古董文物鉴定,是否可以让大模型参与下?
4、不搞期货
很多大模型发布后,需要等一段时间或者使用邀请码才可以用。星火这次发布会在开始前的几个小时,就把最新版上架到各大应用市场。
人人可用,无需等待。我刚刚又用新手机测试了下,直接可以使用。
5、人机共创,有温度的AI
尽管大模型越来越强大智能,刘庆峰在演讲中依然多次强调“人”的作用和价值。
在这些机器的背后,是人类的智慧在驱动着进步,是人类的情感在赋予技术以温度。无论技术如何发展,人的创造力、判断力和情感理解都是AI无法完全复制的。在他的观点中,人与AI人机共创,才是推动未来社会持续发展的关键。
在震撼过后,我们有必要思考一个话题,讯飞星火V3.5发布,对于我们的行业来说,到底意味着什么?关于这个话题,我有几点新的看法。
01
全国产化算力平台
实现自主可控
可能很多人还记得,23年8月科大讯飞发布星火V2.0的时候,就有媒体人猜测,华为要和科大讯飞深化合作,推进国产大模型产业完成闭环。
果不其然,在去年1024期间,科大讯飞宣布,携手华推出了支撑万亿参数大模型训练的国产算力平台“飞星一号”。
而这一次,仅仅过去了三个月时间,基于首个全国产算力平台“飞星一号”训练的讯飞星火V3.5就横空出世了。
通过当天的现场演示以及我的实际评测情况来看,实现自主可控的全国产算力平台,所研发训练出来的讯飞星火V3.5确实不同凡响。在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力和多模态等多个方面进行了全面升级。
按照官方介绍,其中语言理解、数学能力超过GPT-4 Turbo,代码达到GPT-4 Turbo 96%,多模态理解达到GPT-4V 91%。
就在本周一,我还发文《中国的大模型VS美国的大模型,有哪些区别?》,羡慕美国在大模型领域取得了底层技术突破,而我们中国更擅长落地工作。这一转眼的时间,科大讯飞就取得了重大进展。作为一个观察科技行业发展多年的媒体老人,看到基于首个全国产算力平台“飞星一号”训练的讯飞星火V3.5,着实振奋人心。
有意思的是,就在科大讯飞举行发布会前夕。美国商务部发布了提案,将限制中国使用Azure、AWS等云,训练AI大模型。
现在我们从芯片技术到云服务产品架构,从算法到落地产品,一个个接连取得突破。这意味着我们在大模型领域,再也不怕被西方国家卡脖子了。我们有理由相信,中国将成为这一领域的重要引领者。
同时,美方的种种限制举措让我们更加明白,核心技术是买不来的,只有掌握在自己手中,才能真正做到心中有数,不惧任何外部压力。
02
升级加速
多模态能力进一步强化
2023年5月,科大讯飞星火认知大模型发布。2023年8月,科大讯飞星火认知大模型V2.0发布。在2023年10月,就发布了3.0版本。2024年1月底,又发布了3.5版本。
这样的速度,比“喜新厌旧”的手机厂商推出新品的速度还快。这也意味着,大模型的升级速度加快了。
难怪之前星火大模型发布时,舞台上特别写出“星星之火,可以燎原”几个大字。
为什么可以如此之快,其实道理也很简单。就好比同样是学习乾坤大挪移这门武功,阳顶天一辈子学到第四层,杨逍学到第二层,而张无忌几个小时就学到了第七层。这是因为张无忌内力深厚,有其他高手不具备的历史积累。
同样,今天科大讯飞大模型的一次次更新,也是因为科大讯飞秉承了过去20多年的积累,可以做到厚积薄发。自1999年成立以来,科大讯飞一直在人工智能领域深耕,积累了丰富的技术经验和数据资源。正是因为有了这样长时间的沉淀与打磨,科大讯飞才能够做到以惊人的速度推出新的大模型更新。其他大模型需要1年升级的动作,科大讯飞两三个月就实现了。
当初,在发布星火时,刘庆峰就重点阐述了讯飞多年来对认知大模型的技术储备,并称这是一次“对话式的通用智慧的涌现”,既展示了讯飞布局AI的多年努力,并且也向着制定行业标准努力。按照这个速度,讯飞星火4.0乃至更高阶的版本,我们在2024年就可以期待了。
此番星火V3.5发布,最大的看点就是多模态能力实现升级。
以我实际演示为例,仅凭几个指令,讯飞智文能够迅速制作出一份关于“吕梁旅游介绍”的PPT,PPT中涉及的图片和图表,也可以使用AI自动生成。更重要的是,用户直接可以免费下载使用PPT。这项能力其实还包含了星火画图的能力,以及多元素材重组的能力。
03
场景落地
赋能千行百业
有必要说明,大模型的发展不是为了炫技,而是服务于我们的工作、生活、生产,也就是落地到千行百业。
刘庆峰在当天的活动上,也说明了星火大模型落地应用的进展。并且透露了搭载语音大模型的讯飞翻译机,即将上线多语种自动识别和增强式翻译两个重要功能,分别于今年1月底和3月中旬完成升级。另外,星火语音大模型还能进入更多场景,比如在汽车、客服、家庭、陪伴机器人等场景中,带来人机交互变革。
我们可以进一步展望。在汽车领域,星火大模型可以实现更加智能和自然的人机交互,提升驾驶体验和安全性;在客服领域,它可以快速准确地理解客户需求,提供个性化的服务解决方案;在家庭和陪伴机器人领域,语音大模型则能够赋予机器人更加丰富的情感和交流能力,使其成为家庭成员的贴心伙伴。
我也坚信,AI不仅仅可以生成数字化的内容,也可以和我们实际的工作和生产结合起来。以AI机器人行业为例,从现在开始,最多3--5年时间,除了已经上路的无人驾驶汽车,诸如机器人工人、机器人军人、机器人保姆、机器人老师、机器人导盲犬、咖啡机器人/机器人服务员、机器人快递员/外卖员、机器人运动员/裁判,就会取得重大进展,并且较大规模出现在我们的生活中。
还有我们前文提到的AI大模型识别甲骨文,以及进行文物修复、鉴定,也可以研究起来。如果甲骨文能引入AI大模型,将有望为甲骨文识别带来了新的曙光。通过深度学习和模式识别技术,AI大模型能够高效地识别出甲骨文中的文字,并对其进行准确的解读。这不仅极大地提升了甲骨文的识别效率,还有助于我们更深入地挖掘和理解这些古老文字所蕴含的历史文化信息。
总之,AI大模型的场景落地正在赋能千行万业,为我们的工作、生活、生产带来前所未有的变革和机遇。对于科大讯飞来说,万里征程只走了一个开头,更精彩的还在后面。