谷歌开发者大会震惊全场!121次提到“AI”、人工智能代理引起轰动
最新消息显示,周二,业内期盼已久的谷歌夏季大型开发者大会Google I/O在加利福尼亚州举行。
不出所料,此次开发者大会上,人工智能是最大的主题,谷歌推出Gemini、Android 15的更新以及名为“Project Astra”人工智能代理原型,并展示了内置生成式人工智能功能的谷歌搜索。
有业界人士认为,此次开发者大会是谷歌对其竞争对手OpenAI的及时回应。大会之前一天,OpenAI发布了全新的旗舰GPT-4o AI模型及其带来的改进ChatGPT。
此次开发者大会带来了什么新东西呢?下面就来看一看!
热身表演:
音乐家兼社交媒体创作者Marc Rebillet登台作热身表演,使用人工智能创作了一些曲目。这位在TikTok和YouTube上很受欢迎的音乐家展示了DJ如何使用谷歌的Music FX DJ AI来创作曲目。他表示:“很好用,对你很有帮助。”
谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)上台,为公司年度开发者大会Google I/O拉开帷幕。
在搜索中应用人工智能:
桑达尔·皮查伊回顾了谷歌人工智能模型Gemini 1.5 Pro及其强大功能,并表示“超过150万开发人员”在谷歌的工具中使用Gemini 模型。皮查伊表示,“搜索”是互联网上最赚钱的业务,公司一直在努力将生成式人工智能功能融入到搜索中。
发布AI Overviews:
这是一个针对搜索结果的新genAI,部分基于搜索生成体验。这是谷歌在人工智能时代对搜索进行的人工智能测试。皮查伊表示,经过全面修改的AI Overviews很快就会在美国和其他国家推出。
Google Photos支持AI:
皮查伊表示,由Gemini提供支持的“Ask Photos”功能即将登陆Google Photos,它可以从照片中提取信息。例如,你可以询问Google Photos“我的车牌号是多少”,它就会识别出经常出现的汽车图片,并告诉你车牌号。
Gemini 1.5 Pro支持更长AI token内容窗口
皮查伊称,Gemini 1.5 Pro 模型提供了100万个AI token的内容窗口,正在向全球所有开发者推出,未来还将扩展到更长的200万个AI token内容窗口。
Gemini将筛选电子邮件并提供会议概要
人工智能助手将为提供会议的亮点、总结电子邮件并制定回复,将在Workspace Labs中提供此功能。
人工智能代理的未来
皮查伊称,人工智能代理的想法是帮助人类处理繁重的工作,并对日常生活真正有用,帮助人类完成任务。
“我们正在认真思考如何以私密且安全的方式做到这一点,”皮查伊说。
推出Gemini 1.5 Flash
DeepMind的老板Demis Hassabis首次登上Google IO并表示,谷歌Deepmind一直在构建人工智能系统,这些系统可以做很多令人惊奇的事情,包括医学研究和药物发现探索。
Hassabis宣布推出Gemini 1.5 Flash,这是一款比Gemini 1.5 Pro更轻量级的AI 型,旨在降低成本。
宣布推出Project Astra
Demis Hassabis宣布推出Project Astra,这是一款能够快速响应、无延迟的人工智能代理。新的人工智能代理可以持续编码视频并具有更好的语音语调,与人类互动的节奏和质量更加自然。
在接下来的展示中,Project Astra的空间理解和记忆力引起轰动。
在演示中,一名谷歌员工在Project Astra事先进行“识别”后的伦敦DeepMind办公室周围走动,并询问她的眼镜放在哪里。
Project Astra回复称,她把眼镜放在办公室桌上的一个苹果旁边,该员工果然就走到那里找到了眼镜。这意味着人工智能代理确实“记住”了实时视频中某一帧画面背景中的特定物品。
谷歌的AI音乐生成器
谷歌邀请音乐家Wyclef Jean来演示人工智能音乐生成的功能。 Marc Rebillet 等音乐家在视频中表示,人工智能彻底改变了歌曲采样以创造新音频的方式。
推出新版Imagen图像生成器
Imagen 3是谷歌人工智能图像生成器的最新版本,谷歌强调其具备捕获较小细节和渲染文本的能力。
推出Veo文本-视频生成器
谷歌推出了新的人工智能视频生成器Veo,将与OpenAI的Sora展开竞争。Veo可以理解航空镜头和延时拍摄等电影术语,将被集成到谷歌的VideoFX应用程序中。
现场展示了普通玩家Donald Glover尝试使用Veo制作AI视频的画面。Donald Glover表示:“每个人都会成为导演,每个人都应该成为导演。”
谷歌搜索集成人工智能
谷歌搜索是谷歌最赚钱的业务,因此互联网企业都屏住呼吸,等待着谷歌搜索的变化是否会影响他们的商业模式或搜索排名。
皮查伊曾称,人工智能将为谷歌搜索带来巨大变化。谷歌搜索主管Liz Reid表示,人工智能将为谷歌搜索提供动力,为复杂问题提供最佳答案,以前可能需要花费几个小时的研究现在只需几秒钟即可完成。
谷歌搜索将使用“多步推理”来回答复杂的问题,而不需要将其分解为多个搜索。新的谷歌搜索还能制定膳食计划、安排日期和行程。
例如,用家搜索达拉斯的浪漫餐厅时,就算搜索者没有考虑到,谷歌搜索也可能会主动推荐有现场音乐的餐厅,或者在天气温暖的时候,谷歌搜索会建议带屋顶位置的餐厅。
Liz Reid称,这种新型搜索方式很快就会出现在餐饮和食谱、电影、酒店、书籍和购物等类别中,应该引起购物和图书领域公司的关注。
Gemini协助办公
谷歌Workspace副总裁Aparna Pappu展示了Gemini对于办公工作的帮助,一旦告诉它你想要做什么,它就能记住并继续当前的工作流程,Gemini可以集成到Gmail和其他谷歌产品中以提高工作效率。例如侧面板助手可以阅读您可能错过的所有电子邮件,然后将电子邮件附件和信息整理到表格中,还可以总结电子邮件并根据对话的上下文提供回复建议。
推出谷歌AI Teammate
谷歌AI Teammate类似于人工智能的虚拟同事,可以作为对话记录的保存者,方便回忆可能错过的事件,可以为其分配任务,包括监控和跟踪项目、规划项目时间表,标记潜在的问题。用户可能根据团队需求进行自定义。
Gemini 的定制版本Gems
谷歌高管Sissie Hsiao推出了Gemini的定制版本Gems。用户可以轻松地设置一个特定且专业的Gemini AI伙伴,可以帮助您成为跑步教练,或者副厨师或瑜伽大师。Gems将在未来几个月内向Gemini Advanced订阅者推出。
谷歌 Android 生态系统总裁Sameer Samat 告诉观众, Android 正在以“人工智能为核心”进行更新。
Android 15系统如何应用Gemini
Android的演示出现在开发者大会的最后,主要是关于如何在Android智能手机上轻松使用Gemini AI模型。
谷歌Android生态系统总裁Sameer Samat表示, Android 正在以“人工智能为核心”进行更新。三个主要变化是:人工智能驱动的搜索触手可及;Gemini成为Android系统上新的AI助手;设备端人工智能解锁新体验。
今年早些时候宣布的“Circle to Search”功能更新,将帮助用户无需打开应用程序即可精确定位查询。
多模态功能的Gemini Nano将登陆Pixel手机
谷歌的辅助功能TalkBack将在今年晚些时候进行一些更新。如果有人向您发送照片,您会收到照片外观的描述;如果您在网上购物,您会收到产品的描述。
这一功能由Gemini Nano模型驱动。谷歌展示了如果手机接到一个诈骗电话,要求将用户的钱转移到一个新账户,手机即会弹出警报说这可能是一个骗局。这赢得了现场的热烈掌声。
谷歌如何从新技术中赚钱
对于十多年来一直依赖数字广告生存的谷歌来说,生成式人工智能是一个巨大的变革。
谷歌表示,对于大型Gemini AI模型,谷歌将对顶级Gemini 1.5 Pro模型收取每100万token 7美元的费用,这就是开发人员将大量数据放入人工智能模型所需的成本。
Gemini AI模型还有一个较小的1.5 Flash 版本,其功能没有那么强大,但更便宜,每100万token售价为35美分。
关于开源模型Gemma
大会即将结束时,谷歌讨论了一系列名为Gemma的开源人工智能模型。
Gemini是闭源模型,外部开发人员无法看到代码,并且通过谷歌云来实现企业级应用。而Meta的Llama模型基本开源,比谷歌开放得多。
谷歌的路径更加清晰:订户和云用户只需支付现金即可使用这些工具。Meta可能会围绕其Llama模型聚集一个更大的开发者社区。这可能会带来回报。但目前来看,大多数顶尖的人工智能公司在人工智能领域都走的是封闭路线。
“AI”出现了121次
桑达尔·皮查伊上台结束了大会并称,他要求Gemini数一下今天大会上提到“AI”的次数,Gemini回答是120次。
皮查伊说,今天开发者大会的主题就是如何让谷歌为你统计提到“AI”的次数,Gemini会一直这样做,所以就不必人工统计了。
他的话声刚落,屏幕上Gemini统计的次数就变为了“121”。
主编精选,篇篇重磅,请点击订阅“邮件订阅”