劈柴哥玩得!Nano Bana Pro 实杀疯了但谷歌没接住用

  几个月前,谷歌发布了爆火的 Nano Banana( 即 Gemini 2。5 Flash Image)。从修复老照片,到生成迷你手办,大师玩得不亦乐乎。今天,谷歌正式推出了 Nano Banana Pro(即 Gemini 3 Pro Image),一个“全新的、最先辈”的图像生成取编纂模子。它基于 Gemini 3 Pro 打制,操纵 Gemini 的推理能力取实正在世界学问,将消息可视化的能力提拔到了一个史无前例的高度,发布后又敏捷获得大量好评。按照谷歌的说法,Nano Banana(原版)倾向快速、轻量、好玩的场景, Nano Banana Pro 适合需要高质量、复杂构图的专业级创做。通俗消费者能够正在 Gemini App 中体验,选择 “Create images / 建立图像” 并切换到 “Thinking” 模子即可。免费用户有必然免费额度,之后回落到原版 Nano Banana,AI Plus、Pro 取 Ultra 用户具有更高额度。此外,谷歌 AI Studio 也已上线。谷歌的所有 AI 生成内容都默认嵌入不成见的 SynthID 数字水印。然后间接扣问它能否由 Google AI 生成。目前支撑图像,后续将扩展到音频和视频。起首,有了 Gemini 3 先辈的推理能力,Nano Banana Pro 不只能生成都雅的图片,还能帮产出更有用的内容。好比按照用户供给的内容或实正在世界的现实,从动生成具有丰硕上下文的消息图和示企图。Nano Banana Pro 还能够毗连 Google Search 的复杂学问库,生成菜谱步调、可视化气候环境等及时消息。谷歌 CEO Sundar Pichai(劈柴哥)正在推特上展现本人的做品,他还暗示,Nano Banana Pro“具有最先辈的图像生成和编纂功能,具备更高级的世界学问、文本衬着、精度和节制能力。基于 Gemini 3 建立,它很是擅长制做复杂的图表,就像工程师对待世界的体例一样! )”其次,谷歌暗示,Nano Banana Pro 正在生成带有文本的图片方面是目前最好的模子之一,文本不只能精准呈现,并且可读性极高。这得益于 Gemini 3 对语义、布局的理解更深刻。网友 Shubham Bagade 评价道,一般来说,图像生成模子会优先优化局部纹理分歧性,也就是让像素看起来像一座桥,但会以全局语义分歧性为价格,也就是理解“桥”到底是什么。它正在仿照字母的外形,但并不睬解这些符号的寄义。“AI 图像最难的问题不是逼实度,而是空间逻辑。这意味着 Gemini 3 具有一个能理解三维几何和功能关系的世界模子,而不只仅是二维像素的相关性。它呈现的是物理布局,而不只仅是照片本身。若是这是实的,那么手艺插画的边际成本方才掉到零。我们正正在从‘AI 是创意总监’迈向‘AI 是制图匠’的时代。这将 AI 从艺术家的玩具,改变成教师和工程师的适用东西。”Alex Volkov 本人测验考试用 Pro 制做了下面的消息图,花了 80 秒,包罗研究和寻找 logo,并且涵盖了本周所有的 AI 旧事。再者,Nano Banana Pro 现正在能同时融合多达 14 张图像,并连结最多 5 小我的外不雅分歧。无论把草图变成产物图,仍是把原图转成写实的 3D 布局,现正在能轻松逾越“概念 → 成品”的鸿沟。此外,借帮 Nano Banana Pro 的新功能,用户能够更精细地操控画面内容:选择、微和谐变换局部区域,改变拍摄角度、调整核心、景深,使用专业级调色,改变场景光线等,可认为分歧平台选择分歧的画幅比例,还可输出 2K 或 4K 高分辩率图片。看来,他仍对于 2017 年关于汉堡脸色符号的辩论“奶酪该当放正在肉饼仍是下面”这事儿耿耿于怀。昔时,他一度暗示要“放下手头的一切工做”来处置此事。其时,谷歌版汉堡 Emoji 显示奶酪正在汉堡底部,这正在社交上激发了关于人们拆卸汉堡体例的辩论。做者兼阐发师 Thomas Baekdal 指出了这个设想问题,“为什么谷歌的汉堡 Emoji 把奶酪放正在肉饼下面,而苹果的却放正在。”据 Emojipedia 报道,Facebook、WhatsApp 和 Twitter 等公司的 Emoji 设想是将奶酪放正在肉饼上方。2018 年 5 月的 Google I/O 大会上,劈柴哥正在中讥讽道,“我们的汉堡 Emoji 奶酪放错了”,并展现了“Before/After”两幅汉堡图对比,来申明 Android 批改其“奶酪正在肉饼下面”这一设想。谷歌这周的表示简曲像哥斯拉一样强势,这是我第一次决定把本人的银行卡绑定到他们的 AI Studio 上。之前看到有人说他们放弃了,跑去此外平台,由于‘底子没法子付费’。我其时感觉很奇异,但现正在花了半小时测验考试获取一个能用的 API Key 之后,我大白他们的意义了。所有设置都曾经完成,我也看到了提醒:“你正正在利用付费 API Key [NanoBanano](属于 [NanoBanano])。本次会话发送的所有请求城市收费。”但我去输入提醒词时,却收到一个“权限被”的错误。谷歌这周的表示简曲像哥斯拉一样强势,这是我第一次决定把本人的银行卡绑定到他们的 AI Studio 上。之前看到有人说他们放弃了,跑去此外平台,由于‘底子没法子付费’。我其时感觉很奇异,但现正在花了半小时测验考试获取一个能用的 API Key 之后,我大白他们的意义了。所有设置都曾经完成,我也看到了提醒:“你正正在利用付费 API Key [NanoBanano](属于 [NanoBanano])。本次会话发送的所有请求城市收费。”但我去输入提醒词时,却收到一个“权限被”的错误。这个问题冲上了 Hacker News 评论第一。随后,疑似谷歌团队的人“logankilpatrick”答复该网友称,关于权限问题,我不太确定你是通过什么流程碰到这个环境的。若是能够的话,请发邮件告诉我更多细节,我会帮你查:关于全体付费流程的繁琐:我们正正在开辟一个全新的付费体验,间接内置正在 AI Studio 里,让你能够很是便利地添加信用卡然后起头利用。我们也会插手诸如硬性计费上限等功能,估计全球上线时间是来岁一月份。关于权限问题,我不太确定你是通过什么流程碰到这个环境的。若是能够的话,请发邮件告诉我更多细节,我会帮你查:关于全体付费流程的繁琐:我们正正在开辟一个全新的付费体验,间接内置正在 AI Studio 里,让你能够很是便利地添加信用卡然后起头利用。我们也会插手诸如硬性计费上限等功能,估计全球上线时间是来岁一月份。关于权限问题,我不太确定你是通过什么流程碰到这个环境的。若是能够的话,请发邮件告诉我更多细节,我会帮你查:关于全体付费流程的繁琐:我们正正在开辟一个全新的付费体验,间接内置正在 AI Studio 里,让你能够很是便利地添加信用卡然后起头利用。我们也会插手诸如硬性计费上限等功能,估计全球上线时间是来岁一月份。他的小我博客上写着他曾正在谷歌和 OpenAI 工做过。接着,有网友起头向其埋怨本人糟心的付费履历:“正在 Vertex AI 上,仅仅是注册、绑定信用卡、然后起头用 Claude Sonnet(现正在能够正在 Vertex AI 上利用),这个过程简曲就是一场恶梦。”回到 Vertex 查看,发觉 Sonnet 4。5 的默认配额是 0 TPM(为什么这是一个合理的默认值??)回到 Vertex 查看,发觉 Sonnet 4。5 的默认配额是 0 TPM(为什么这是一个合理的默认值??)网友 herval 暗示,“Google 的 API 全体上难用得好笑。世界上其他任何办事,你去平台上拿一个 API key 就能起头用了。想用 Google 的 Gmail、Maps、Calendar 或 Gemini API?那你得先建立一个 Cloud 账号、建立一个使用、启用 Gmail 办事、建立一个 OAuth 使用、下载一个 JSON 文件。奉求……这太夸张了。”可是,不得不说,比来的谷歌完全打了一次翻身仗。正在谷歌 Gemini 3 推出后,OpenAI 敏捷推出了 GPT - 5。1 Pro 版本,Nano Banana Pro 发布后,有网友翻到 Altman 4 月份的推特,催发新模子。近日,劈柴哥接管 BBC 采访,切磋了 AI 泡沫、智能体对岗亭影响、手艺等问题的见地。他认为,当前存外行业投资过热的非成分,但 AI 需求是实正在的(消费者、企业端使用普及),手艺潜力深远,类比互联网的性影响,全体趋向。我们翻译了此次采访,并正在不改变原意根本长进行了拾掇,以飨读者。掌管人:当前全球股市和投资市场正处于环节阶段,您身处科技焦点区域,明显有很多全球关心的主要动态值得分享。可否先为我们描述一下硅谷当下的全体态势?Pichai:即便以硅谷的尺度来看,现正在也是一个不凡的时辰。每 10 年摆布,科技行业总会呈现一些环节转机点:小我电脑的降生、90 年代末互联网的兴起、随后的挪动互联网海潮,再到云计较时代……而现正在,明显曾经进入了人工智能(AI)的黄金时代。这种兴奋感,无论是正在谷歌园区仍是整个湾区,都能逼实感遭到。掌管人:可否具体说说这场变化的规模?市场凡是会关心市值数据,谷歌 3。5 万亿美元、英伟达 5 万亿美元的估值都令人注目,背后是巨额的投资涌入。Pichai:理解规模的一个主要维度是 AI 根本设备的本钱投入。大约四年前,谷歌的年度本钱收入还不到 300 亿美元,而本年这一数字将跨越 900 亿美元。若是汇总整个行业的投资,目前投入 AI 根本设备扶植的资金已远超 1 万亿美元。更曲不雅的对比是:将来两、三年内,我们建成的 AI 根本设备规模,可能相当于过去 10 到 20 年的总和。这就是当前行业扩张的速度。Pichai:这个问题能够从两个角度看。起首,AI 模子的能力提拔是实实正在正在的:消费者正在产物中积极利用,企业借帮 AI 优化运营,实正在需求持续存正在,以至我们的手艺供给还难以跟上需求增加。从手艺潜力来看,市场的热情是的。但同时,科技行业的投资周期中不免呈现集体过热的环境,就像 90 年代互联网泡沫期间,确实存正在过度投资的现象。但没人会质疑互联网对社会的深远影响,它从底子上改变了数字时代的工做体例,我认为 AI 也将发生划一量级的变化。因而,当前的态势既是的手艺驱动,也同化着行业周期中的非成分。掌管人:有人认为,无论合作敌手的买卖何等激进,谷歌凭仗全范畴的手艺结构,可以或许免疫泡沫分裂的影响,您认同这种概念吗?Pichai:没有任何公司能完全免疫,谷歌也不破例。若是投资过度,行业终将履历调整期,但谷歌的劣势正在于持久的差同化策略。我担任 CEO 后,起首鞭策公司转向“AI 优先”计谋,采纳“全栈式方案”:从底层物理根本设备、前沿手艺研发,到正在搜刮、YouTube、等产物中的落地使用,实现了端到端的手艺掌控。这种深度结构让我们可以或许规模化投资,并以持久视角应对行业波动。Pichai:目前 AI 已能实现多从题的智能交互,而将来 12 个月将送来环节进化:AI 将能完成更复杂的使命。好比帮用户选购配头的华诞礼品,这种“智能代办署理体验”恰是行业的兴奋点所正在。久远来看,AI 还能辅帮严沉决策,好比能否投资某只股票、若何衡量医疗方案的利弊,这些都是切实的使用场景。当然,解锁这些能力还需要持续投入,但这个过程曾经很是令人等候。至于 CEO 岗亭,大概将来 AI 某天能胜任部门工做,但手艺的焦点价值是提拔出产力。就像洗碗机、冰箱的发现解放了家务劳动,AI 是为了减轻人类承担。以放射科大夫为例,每年的扫描量和影像数据持续增加,AI 东西能帮帮他们应对工做压力,而不是代替他们。编者注:这取 Altman 见地分歧,Altman 认为一个由 AI 模子全面运营公司的时代几乎曾经到来。即便这意味着他可能得到本人的职位,OpenAI 也将引领这一潮水。“若是 OpenAI 不是第一家由 AI CEO 运营的大公司,那我就该惭愧。”他认为,将来几年时间,公司旗下某个大型部分就能实现 85% 或更多的运营由 AI 从导。编者注:这取 Altman 见地分歧,Altman 认为一个由 AI 模子全面运营公司的时代几乎曾经到来。即便这意味着他可能得到本人的职位,OpenAI 也将引领这一潮水。“若是 OpenAI 不是第一家由 AI CEO 运营的大公司,那我就该惭愧。”他认为,将来几年时间,公司旗下某个大型部分就能实现 85% 或更多的运营由 AI 从导。掌管人:但良多中产担忧 AI 会冲击律师、创意行业、会计、旧事等职业。您认为哪些岗亭相对平安?有什么给苍茫的家长和年轻人?Pichai:起首必需认可,AI 做为人类史上最具变化性的手艺,既会带来庞大好处,也必然激发社会布局调整。但汗青证明,手艺会创制新的机遇——就像 YouTube 让任何人都能成为内容创做者,将来高中生大概能构想并制做长篇片子。部门岗亭会转型,有些会被替代,但新的职业会不竭出现。对年轻人的是:不必改变焦点成长逻辑,各类学科仍将阐扬价值,但要学会取 AI 共生。无论是教师、大夫仍是其他职业,将来的成功者都将是那些长于使用 AI 东西的人。拥抱手艺、学会适配,才是环节。掌管人:当前所有的估值、等候和社会价值,都成立正在手艺靠得住的根本上。做为 ChatGPT 的合作敌手,谷歌 Gemini 能否能一直消息精确?好比曾呈现过“胶水是披萨配料”“被误控袭击”等错误案例,这能否意味着 AI 会降低消息可托度?Pichai:我们正从科学层面勤奋让模子基于实正在世界消息运做,好比 Gemini 已整合谷歌搜刮功能,以提拔谜底精确性。但 AI 的焦点道理是预测下一个词,不免存正在误差,这是当前手艺的局限性。因而,谷歌搜刮等产物仍将做为“现实核查东西”存正在,而 AI 则更擅长创意写做等场景。用户需要学会按照用处选择东西,而非盲目信赖 AI 的所有输出。更主要的是,消息生态不该仅依赖 AI。旧事业以及现有信赖系统都至关主要。我们需要建立更丰硕的消息生态,而不是让 AI 成为独一消息来历。掌管人:AI 根本设备的大规模扶植激发了另一个争议:能源耗损。您认为 AI 成长取天气方针之间能否存正在衡量?谷歌能否放弃了 2030 年净零排放方针?Pichai:这并非零和博弈。AI 带来的庞大能源需求,反而鞭策了新能源手艺的立异。谷歌方才取 Commonwealth Fusion Systems 签订了全球最大的核聚变能源采购和谈,还结构了小型模块化核反映堆、地热能源等项目。AI 对能源的需求确实超出了现有系统的承载能力,但这正加快太阳能、电池手艺、核能等范畴的投资。做为手艺从业者,我乐不雅地认为,将来我们将具有充脚的可再生能源。谷歌并未放弃 2030 年净零方针,我们仍会发布进度演讲。但 AI 根本设备的超预期增加确实影响了部门减排进度,因而我们通过投资新能源手艺来应对这一挑和。掌管人:英国既逃求净零排放,又立志成为 AI 超等大国,这两个方针能否兼容?谷歌能否会考虑正在英国加大投资,好比正在本地锻炼尖端 AI 模子?Pichai:完全能够兼容,手艺是环节赋能者。谷歌近期已颁布发表向英国投资 50 亿美元,涵盖本钱收入、研发和工程范畴。谷歌深度思维正在英国具有大量员工,正正在开展尖端研究,将来我们打算正在英国实现模子锻炼和办事摆设的全面落地。以我们正在沃尔顿克罗斯的最先辈数据核心为例,通过取壳牌的独家合做,到 2026 年谷歌正在英营业的碳排放量将削减 95%。这证明正在加大投资的同时,仍能推进可持续成长。对英国而言,环节是扩大包罗能源正在内的根本设备扶植,避免能源障碍经济成长。掌管人:AI 繁荣的另一个焦点是锻炼数据。科技公司依赖“合理利用”准绳,抓取册本、音乐、旧事等内容,再将其为贸易办事。谷歌能否认为将来需要为这些数据付费?Pichai:正在鞭策立异的同时,必需卑沉创做者,这是焦点准绳。谷歌严酷恪守版权律例,正在模子锻炼阶段答应创做者选择退出,同时确保输出内容不版权。我们正取行业合做制定新的框架,就像 YouTube 持久以来为内容人创制价值一样,这些准绳也将使用于 AI 范畴。我们努力于正在立异取权益之间找到均衡。掌管人:本年岁首年月,您取扎克伯格、贝索斯、马斯克等科技巨头出席总统就职仪式的照片激发热议。科技公司本就具有庞大影响力,现在又掌控着最强大的 AI 东西,且取力量联系慎密。您理解为何这会让感应不安吗?Pichai:AI 手艺对经济成长和都具有严沉意义,做为行业领先企业,谷歌有义务取扶植性合做。特朗普总统已明白 AI 的主要性,并推出了全面的 AI 步履打算,我们正积极响应。正在英国,我前次拜候时也取辅弼进行了会晤。环节正在于建立全行业的框架,让、企业、非营利组织等所有益益相关方参取进来。我们不只要鞭策手艺带来的好处,还要配合应对潜正在风险。这种多方协做才能确保手艺成长合适社会好处。掌管人:白宫加强对外国劳工签证的,对谷歌和整个科技行业会有何影响?做为通过 H-1B 签证来到美国的移平易近,您小我怎样看?Pichai:移平易近对科技行业的贡献是不成估量的,谷歌近期获得了几项诺贝尔,获者中有不少是移平易近。美国理解这一点,当前的政策调整是为了完美现有签证系统的不脚,而非封闭人才通道。我们仍将可以或许吸引全球顶尖人才,继续推进手艺立异。掌管人:谷歌曾以注沉 AI 平安、人类风险而闻名。现正在这种隆重立场能否有所淡化?能否已全面转向 AGI(通用人工智能)和超等智能的研发?Pichai:手艺快速成长取风险防控之间确实存正在张力,谷歌的准绳是“斗胆立异,负义务地前行”。消费者对 AI 的需求日益火急,他们等候更智能的回覆和办事,我们必需回应这种需求。但同时,我们也正在加大 AI 平安投入——好比开源 AI 生成图像检测手艺,过去几年 AI 平安范畴的投资增速,取 AI 研发投资连结同步。我们正勤奋正在立异速度取风险管控之间找到均衡。掌管人:埃隆·马斯克曾暗示,他创立 OpenAI 的初志就是担忧谷歌收购 DeepMind 后,构成“AGI ”。您若何对待这种担心?Pichai:马斯克的担心有其合,没有任何一家公司该当独有如斯强大的手艺。但当前 AI 生态很是多元:不只有多家科技巨头正在研发前沿模子,还有开源模子兴起,中国也正在这一范畴积极结构。目前完全不存正在“一家独大”的环境,这种合作和多元性恰是行业健康成长的保障。Pichai:谷歌的量子计较处于全球领先程度,目前的成长阶段雷同 5 年前的 AI。估计将来 5 年,量子计较将进入迸发期。的素质是量子力学,量子系统能帮帮我们更好地模仿天然、解锁新的科学发觉——好比药物研发、材料立异等范畴,都将从中受益。我们正以长近视角持续投入这一范畴。掌管人:几年前拜候谷歌时,你们曾经研发出了 ChatGPT 和 Gemini 的焦点手艺,但其时几乎一窍不通。现正在能否有雷同的“奥秘尝试室项目”,将来可能改变世界?Pichai:谷歌的研发管线很是丰硕。好比从动驾驶手艺已取得显著进展,不只展示出平安劣势,将来规模化使用后还能大幅削减交通变乱伤亡。还有 AlphaFold,这项由伦敦谷歌 DeepMind 团队研发的手艺,过去一名博士生可能毕生只能解析一种卵白质,而 AlphaFold 正在几个月内就完成了 3 亿种卵白质的解析,并向全球免费。现正在我们可能对这些前进习认为常:图灵测试早已被超越,陌头的无人驾驶汽车也从科幻变成现实。将来还会有更多欣喜,好比用 AI 研究海豚的交换体例等。手艺的魅力正在于不竭冲破想象,而人类的顺应能力同样强大。我 80 多岁的父亲比来体验了 Waymo 从动驾驶汽车,那种惊讶让我认识到,我们常常低估了手艺带来的改变。