2025年4月28日

谷歌推出多模态大型语言模型 Gemini,或将重塑互联网搜索体验


最近,互联网行业掀起了一场关于人工智能的讨论热潮。谷歌,这家全球互联网巨头,刚刚发布了称为 Gemini 的新型语言模型,引发业界广泛关注。Gemini 引人注目的特性在于其多模态交互能力。不同于传统的语言模型仅仅处理文本输入,Gemini 可以处理语音、视频,甚至音乐输入。

在网络上流传的演示视频中,可以看到,这个模型并不仅仅局限于从文本生成图像,用户可以将视频片段、照片或手绘草图展示给人工智能,通过自然的语音与之交流。它甚至可以处理这些不同模式的组合输入,这更接近于人类的自然沟通方式。

对于谷歌发布的这一新技术,人们普遍认为其拥有若干明显优势。首先,谷歌动员了接近千人规模的团队研发 Gemini,这样的人才密度在业界是非常少见的。其次,谷歌手中握有大量的流量和场景,比如 Gmail、Google Search、Chrome 浏览器以及安卓操作系统等,这些都能够为 Gemini 提供立即的用户反馈,为模型的优化升级提供宝贵数据。

而作为从搜索引擎起家的巨头,谷歌不存在数据缺乏的问题。相比于 OpenAI,它在数据训练方面至少不逊色。此外,由于谷歌的搜索本身就包含海量的知识和信息,未来若能将搜索技术和大型语言模型更紧密地结合,谷歌将有可能在实时性、知识全面性上给用户带来前所未有的体验。

除此之外,谷歌掌握着质量上乘的多种语料。以视频为例,YouTube 作为全球最大的视频平台,收录了笔迹浩繁的视频内容和知识标签。如果以后能通过多模态训练将这些视频内容有效利用,其带来的影响将是革命性的。

最后,值得注意的是,谷歌拥有自己的人工智能芯片——TPU。TPU 主要用于模型训练和推理,相对于通用的 GPU,TPU 可以给谷歌在训练速度和成本上带来优势。这一点也是未来在谷歌与 OpenAI 竞争中不容小觑的部分。

考虑到上述因素,谷歌发布的 Gemini 被看作是在大模型领域的重要里程碑。其多模态交互能力和巨大的用户基础,以及搜索引擎和语料资源的结合,使得谷歌在未来的人工智能竞争中占据了先机。对于创业者而言,把握住人工智能带来的商业变革,将成为他们的重要任务之一。他们需要在原有产品和业务上进行改革,发掘和利用人工智能技术,寻找和填补那些能够通过 AI 改善的业务细节,从而赢得未来市场的优势。

发表回复