作者|苏霍伊
编辑|栗子
Gemini贯穿统统。

这是「甲子光年」在看完2024年Google I/O开拓者大会的最大感想熏染。
5月14日,谷歌2024年I/O开拓者大会准期在加州山景城拉开帷幕。今年的主题完备环绕人工智能展开,特殊是天生式人工智能和其在各种运用中的实际运用,如 Workspace和Gmail的整合与优化。
首席实行官桑达尔·皮查伊(Sundar Pichai)在演讲中一共说了121次“AI”,并喊出了一句洪亮的口号——“整合环球信息,惠及所有民众”。
现场,谷歌发布了Gemini系列的最新AI模型:Gemini 1.5 Flash。
同时,谷歌也宣告了Gemini 1.5 Pro升级,全面支持Workspace,同时向环球开拓者开放。Google Workspace办公套件也宣告将进一步整合Gemini,推出基于Gemini 1.5 Pro的多种技能,如可总结邮件内容。Gmail也将深度整合Gemini,汇总邮件内容并天生更好的回答。
1.AI模型:Gemimi宇宙
皮查伊在大会上公布了一系列AI模型的动态。
首先是对Gemini 1.5 Pro模型进行了升级。
Gemini 1.5 Pro模型已环球向开拓者开放。原来它的高下文窗口是100万tokens,现在增加到了200万tokens,能处理更多的数据。
谷歌I/O大会现场,来源:谷歌
用户纵然供应数千页的文本或者几个小时的***,Gemini 1.5 Pro也能够理解内容并回答干系的问题。这项升级将让模型能同时处理2小时的***、22小时的音频、超过60000行代码,或超过140万个单词。
下个月Gemini 1.5 Pro还将在API层面推出新功能,包括***输入、并行函数调用和文本缓存,以提高处理多个要乞降问答文件时的效率。
随后他先容了Gemini系列新模型——Gemini 1.5 Flash。
这是一个比Gemini 1.5 Pro模型运行更快,体积更小,更易于支配,支持处理多种类型的数据,它专为开拓者设计。
Gemini 1.5 Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之间,通过一种称为“蒸馏”的过程,将Pro版本中的关键知识和技能转移到一个更小的模型中,使其具备与Pro相同的多模态功能和100万个token的长高下文窗口。
Gemini 1.5 Flash现在就可以利用了。
DeepMind的联合创始人兼CEO戴密斯·哈萨比斯(Demis Hassabis)提到,他们根据开拓者的反馈,优化了模型的相应速率和本钱效率。Gemini 1.5 Flash在处理大量数据方面表现出色,特殊适用于谈天运用、***处理和图像字幕。
Gemini 1.5 Pro将在Alphabet的内部测尝尝验室Workspace Labs进行测试。Gemini 1.5 Flash也将在机器学习平台Vertex AI上进行试验和利用,该平台使开拓者能够演习和支配AI运用。
Gemini 1.5 Flash每百万token的标准价格为0.7美元,输出为1.05美元。对付较小的高下文(小于128k),有折扣价:输入为0.35美元/百万token,输出为0.53美元/百万token。这比GPT-3.5 Turbo的价格(输入0.5美元/百万token,输出0.15美元/百万token)要高一些。
谷歌I/O大会现场,来源:谷歌
Gemini 1.5 Pro是Google当前最强大的模型,标准价格为每百万token输入7美元,输出21美元。对付较小的高下文(同样小于128k),折扣价格为输入3.5美元/百万token,输出10.5美元/百万token。比较于GPT-4o(输入价格5美元/百万token,输出15美元/百万token)略贵一些。
目前,谷歌正在预备一款Project Astra的通用AI代理,这是一款通过智好手机摄像头剖析周围天下并与用户进行交互的运用。
Astra设计为能够记住看到和听到的内容,从而理解高下文并采纳行动。为了提高实用性,谷歌优化了其处理信息的速率,通过持续编码***帧和结合***与语音输入到事宜韶光线上,并缓存信息以实现高效回顾。
此外,谷歌还通过增强语音模型,让Astra具有更广泛的语调,使其可以更自然地与用户互换,无滞后或延迟。
在实际演示中,一个人利用手机的摄像头扫描办公室,与Astra通过措辞交互,比如讯问“当你看到有东西发生发火声音时,请见告我。”Astra不仅能识别物体和代码,还能实时进行语音互动,展现了它的实用性和交互能力。
Project Astra展示了其出色的视觉理解能力和快速的相应韶光。一个人在办公室中用摄像头扫描个中的物品及场景,并用语音讯问它干系问题。与GPT-4o的功能异曲同工。
谷歌I/O大会现场,来源:谷歌
Project Astra是AI技能在实用性和交互性方面的一个重大进步,尤其是在增强现实和人机交互方面。它让设备不仅是获取信息的工具,而是能理解和参与我们日常生活的伙伴。或许未来的一天,Astra可能会改变我们与技能的互动办法,让这种交互更个性化和直不雅观。
但谷歌透露,Astra的上线还需数月,且只有部分功能将被整合进谷歌的产品中,比如XR眼镜或个人助手。
在文生***领域,谷歌发布了名为Veo的***天生大模型。该模型能以多种电影和视觉风格天生超过一分钟时长的高质量1080p***,并凭借对自然措辞和视觉语义的理解紧密代表用户的创意愿景。
谷歌宣告今年晚些时候,能够在本地运行的多模态Gemini Nano模型将上岸Pixel手机,供应笔墨、图片、***、音频的理解能力,并具有隐私保护功能。
同时,谷歌即将在6月推出的新一代AI模型Gemma 2,将供应多种尺寸和全新架构,以知足不同开拓者的需求并实现卓越的性能和效率。
这款模型以其270亿参数供应与更大模型相称的性能,同时优化了支配本钱,能在更少的打算资源上运行。Gemma 2还支持广泛的调优工具,使得在多种平台和硬件上的支配和微调变得更加大略高效。
2.多模态AI搜索
除了Gemini干系产品的发布外,谷歌搜索卖力人Liz Reid宣告了一项重大更新,将AI技能更深入地整合到搜索引擎中。
谷歌I/O大会现场,来源:谷歌
最新的变革是引入***搜索功能,许可用户上传***来展示他们须要办理的问题,Gemini技能将在互联网各处探求办理方案。
谷歌正在加强其AI搜索领域的立足点,以应对新兴的AI搜索工具如Perplexity的竞争。这些新兴工具虽然吸引不少用户,谷歌搜索仍未受太大影响。
事实上,谷歌的新AI搜索做事ESG已于去年5月发布,一年后向"大众开放,名为AI Overview。
AI Overview紧张强调多模态功能,许可用户通过简化措辞或更详细地调度搜索结果概述。此外,利用Gemini的多步推理能力,AI搜索可以处理繁芜的多步查询。例犹如时探求瑜伽事情室的位置、受欢迎程度和新会员优惠。
谷歌还供应了操持能力,利用户可以一次性获取完全的操持,如为一群人制订三天的餐饮操持。
谷歌的多模态搜索是其独特之处,支持通过声音搜索歌曲、图片搜索产品,并结合***内容进行搜索,如识别旧货店买的坏掉的唱片机的详细问题。
虽然这种遐想搜索功能已成为AI搜索的常态,但谷歌通过更好的构造化和界面设计,供应了精良的用户体验。
只管其他AI搜索引擎也具备类似功能,但谷歌的多模态搜索能力尤其突出,能够结合声音、图片乃至***进行搜索,极大地提升了搜索的灵巧性和效率。
例如,用户可以通过上传***来办理繁芜的技能问题,省去了探求得当描述的韶光和麻烦。只管Perplexity等对手也在追赶多模态功能,但谷歌在这方面的上风明显,结合其精良的界面和用户体验,使其在AI搜索领域连续保持领先。
谷歌还将推出一项名为Gemini Advanced的订阅做事,让用户能够创建个性化的Gemini版本,称为Gems。
Gems类似于谈天机器人,可帮助用户完成任务并具备特定的个性特色,类似于Character.AI平台上的虚拟角色。谷歌表示,用户可以将Gemini定制成健身教练、厨房助手、编程伙伴、创意写作辅导等,实现高度个性化的交互体验。
谷歌还表示,很快Gemini将能让用户针对屏幕上的***提问,并依据自动字幕回答问题。对付付费的Gemini Advanced用户,系统还将能提取PDF文件内容并供应所需信息。这些包括Gemini在Android上的多模态功能更新,估量在未来几个月内逐步推出。
3.Andriod 15与TPU Trillium
谷歌I/O大会现场,来源:谷歌
当然,对付谷歌主要的Android,谷歌也没有落下。
I/O大会上,谷歌也发布了Android生态系统的“三大打破”:
Circle to search(画圈圈搜索);
Gemini手机AI助手;
以及在手机本地运行的AI。
Circle to search(画圈圈搜索)功能。比如利用Android手机或平板电脑,现在可以直接在屏幕上圈出数学题并得到解题帮助。谷歌的人工智能不会直接解答问题,以防学生作弊,而是会把问题分解成几个步骤,使解题过程更大略。
这一功能已在Pixel和三星的部分设备上利用。
此外,谷歌还先容了利用设备上的Gemini Nano AI技能,帮助用户识别并避免诱骗电话,系统会通过识别范例的诱骗对话模式并弹出实时警告。谷歌承诺,今年晚些时候会供应更多关于这项功能的细节。
Gemini AI的集成将Android操作系统的功能大幅增强,不仅限于单一运用,而是可以跨运用供应做事,比如许可用户直接将图像从Gemini拖放到其他运用。
这表明,Android系统正在向一个更加智能和多功能的平台转型,个中Gemini将能访问全体运用程序库,实现与各种运用如Uber和Doordash的深度集成。
Android 15 Beta 2将在来日诰日正式推出。
在硬件方面,谷歌官宣推出第六代TPU—Trillium,峰值打算性能提高 4.7 倍,将在今年向云客户供应。
“我们在过去的25年投资培植了天下一流的技能根本举动步伐。从支持搜索的尖端硬件,到支持人工智能进步的定制张量处理单元。”皮查伊说。
谷歌I/O大会现场,来源:谷歌
在Trillium的先容中提到,这是性能最强和能效最高的TPU,其每个芯片的峰值打算性能比前代TPU v5e提高了4.7倍。这种显著的性能提升不仅将加速AI模型的演习过程,还会提高运行这些模型的效率,对谷歌的AI研发和做事有极大的促进浸染。
比如谷歌的AI模型Gemini就已经在第四代和第五代TPU上进行演习和做事,显示出TPU在支持前辈AI运用中的关键浸染。
此外,其他领先的人工智能公司如Anthropic也在利用谷歌的TPU来演习他们的模型,这进一步验证了TPU在当前AI研发领域的主要性。Pichai的声明中提到了谷歌在过去25年中对技能根本举动步伐的投资,这种长期投入不仅支持了谷歌搜索这样的根本做事,还促进了定制硬件如TPU的发展,从而推动了人工智能技能的整体进步。
通过这次大会的宣告,可以看出谷歌在保持其技能领先地位的同时,也在不断寻求通过硬件创新来巩固其在AI领域的竞争力,Trillium TPU的推出便是一个明显的例证。
硬件的进步不仅对谷歌自身的产品和做事利好,也为全体AI行业供应了更高效的打算资源。
(封面图来源:谷歌)