发布时间:2024-03-21 17:23 来源:K8凯发餐饮有限公司 阅读次数:
据悉,GPT-4o 的语音模式旨在提供更自然的实时对话体验,允许用户在任何时候打断聊天机器人,并能够感知和响应用户的情形,仿佛电影《her》走入现实。
不过,目前推送的功能尚属「版」,此前备受关注的视频和屏幕共享功能将在晚些时候推出。
X 网友一拿到测试资格,就立刻让 GPT-4o 给他当法语陪练。结果显而易见,主打情绪价值的 GPT-4o 与法语底子不错的网友上演了一场教科书式的课堂教学。
据外媒 The Information 报道,本周英伟达告知其最大客户之一微软和另一家大型云提供商,由于设计缺陷,英伟达新款 Blackwell 芯片的出货时间将推迟至少三个月。
The Information 援引参与 Blackwell 芯片制作人士消息称,台积电的工程师在准备大规模生产时发现了该设计缺陷:
GB200 芯片包含两个连接的 Blackwell GPU 和一个 Grace 中央处理单元。该缺陷问题涉及一个处理器芯片(一块用于容纳芯片电路的硅片),该芯片连接了两个 Blackwell GPU。
台积电原本计划在第三季度开始量产 Blackwell 系列芯片,并从第四季度开始向英伟达客户批量发货,但现在量产时间不得不推迟到第四季度,批量出货的时间预计要推迟到明年第一季度。
此外,延迟发货直接影响了包括 Meta、Google 和微软在内的主要客户,这些客户总共订购了价值数百亿美元的芯片。
此次延期不仅将打乱这些客户的部署计划,还可能影响到依赖这些高性能 AI 芯片的产品和服务的开发进度,包括生成式 AI、视频处理和其他 AI 应用。
近期,一份来自 Meta 的研究报告也指出,Meta 在使用 16384 块英伟达 H100 GPU 训练 Llama 3 的过程时,频繁遇到故障问题。
据彭博社报道,苹果的 Apple Intelligence 原本计划与 iOS 18 一同推出,但由于内部测试中发现需要进一步优化和修复的问题,故而预计将推迟几周时间。
此外,随着本周 iOS 18.1 Beta 版的推送,注册开发者从现在开始就能体验到部分苹果牌 AI 功能了。
苹果也发布了全面的技术报告,披露了关于 Apple 智能的更多细节。尤为天生赢家 一触即发注意的是,苹果在报告中提到,用于训练其 AI 基础设施的两个关键模型并非基于英伟达芯片,而是依赖于 Google 设计的 TPU。
针对国行 iPhone 无法使用 Apple 智能一事,苹果客服向新浪科技回应称,该系统版本还没有正式上线,具体以后面正式版上线为准。
Flux.1 拥有 12B 参数,是迄今为止最大的开源文本到图像模型之一,能够处理复杂的图像生成任务。
该模型结合了多模态和并行扩散 Transformer 块的混合架构,这样的设计不仅能处理文本和图像数据,还能更好地理解它们之间的关联性,从而产生高质量的图像。
前 OpenAI AI 大神 Andrej Karpathy 也为 FLUX.1 站台宣传,称其性能优秀。据透露,文生图的推出仅仅是个起点,未来该公司还将计划推出视频生成模型。
一家德国机器人公司 NEURA 最近展示了其人形机器人 4NE-1 执行各种任务的视频。
视频中的 4NE-1 机器人虽然动作有些笨拙,但已经能独立承担切菜做饭、整理乐高、收拾衣服等繁琐的家务活。
「我们将 NEURA 的创新认知机器人技术与英伟达的高性能计算和仿真技术相结合,这将大大加速人形机器人技术的发展。」 NEURA CEO 曾这样描述两者合作的愿景。
报道称,Character.AI 的高层于上周五向员工宣布,投资者所持股份将以每股约 88 美元的价格被 Google 收购,这一价格是公司 2023 年 A 轮融资时估值的 2.5 倍,当时公司估值为 10 亿美元。
随着两位高管及团队的回归,Character.AI 任命了公司总法律顾问 Dom Perella 为临时首席执行官。Character.ai 剩下约 100 名员工将保持独立运营。
另外,公司计划采用 Meta Llama 3.1 等开源模型来支持其产品,取代之前的内部模型。
周鸿祎近期宣布,360 集团联合国内 15 家知名大模型厂商共同推出了名为「AI 助手」的新一代 AI 产品。
这些大模型产品包括:智谱 AI、商汤科技、百川智能、火山引擎、百度智能云、腾讯混元、讯飞星火、华为云、MiniMAX、零一万物、面壁智能、阿里云、deepseek、学而思九章大模型、Kimi。
「AI 助手」旨在整合这些模型的能力,提供给用户一站式的人工智能体验,用户可以根据不同的需求选择最佳的模型进行交互。
据了解,基于混合大模型的 AI 助手 Beta 版已在 11 个单项能力测试指标上超越 GPT-4o。
AI 助手正式上线 安全浏览器和极速浏览器侧边栏、文本划词等入口快速启动该应用,享受多个顶尖 AI 大模型带来的一站式整合服务。
它拥有 20 亿参数,是从更大规模的模型中提炼而来的,在 LMSYS 大模型竞技场的得分超越了 GPT-3.5 和 Mixtral 8x7B。
该模型适合在多种硬件环境下运行,包括边缘设备、笔记本电脑以及基于云的部署环境,适用于数据中心、本地工作站和边缘 AI 应用。
前者用于过滤有害内容,确保模型的输出安全可靠,后者提供了对模型决策过程的深入分析,帮助研究人员理解模型的内部工作原理,并促进可解释性研究。
本周,Midjourney 上线,让不少网友直呼和摄影已经几乎没有区别了。
一个新的-q2模式,可以增加更多纹理,但是需要更长时间(增加 25%),一致性也会下降
SAM 2 是一个能够在图像和视频中实时、可提示地进行对象分割的统一模型。SAM 2 在处理视频时,能够实现比现有工作更好地分割性能,并且将交互时间缩短至原来的三分之一。
该模型的架构采用了创新的流式内存设计,使其能够按顺序处理视频帧,特别适合实时应用场景。
Meta 还发布了一个大型带注释的视频数据库,用于训练 SAM 2,该数据库包含约 5.1 个线 万 个masklets。
据悉,SAM 2 的开源将为计算机视觉领域带来新的可能性,尤其是在视频编辑和混合现实等应用中。
本周,最早打出「看齐 Sora」的文生视频产品 Vidu 全面开放了文生视频、图生视频功能。
Vidu 的出品方是生数科技,清华系模型公司,是全球第一个用上 Diffusion Transformer 架构的公司 ——Sora 同款架构。
4 秒视频免费用户即可体验,会员可生成 8 秒视频,Vidu 提供写实和动画两种风格。新用户注册即获赠 80 积分,每月积分刷新一次,没有 waitlist,不是期货。
实测下来,图生视频+写实的组合崩率明显高很多,其次是纯图生,崩率也不低,但输出效果非常非常快,可以说是目前最快的。
回到文生视频 + 动画模式,Vidu 又重新支棱了起来——没想到,这是个动画特长生。
本周,Kimi 智能助手联合 AiPPT 推出了 Kimi PPT 助手服务,支持帮助用户快速生成 PPT 演示文稿。
用户可以通过在 Kimi 的网页版聊天框中 @PPT 或访问 Kimi+ 广场中的「PPT 助手」来使用这项服务。Kimi PPT 助手支持上传单个或多个文档,并能够一键将它们转换成 PPT 格式。
此外,用户还可以根据提供的一句话指令,搜索相关信息并生成 PowerPoint 的内容大纲,然后一键生成完整的 PPT。
当 AI 开始整合到一站式生产的流水线时,人类的岗位似乎便变得岌岌可危了。
当然,细究之下,视频画面的部分细节还是比较粗糙,包括但不限于将 Intel 生成为 Intell 等。
OpenAI 首席执行官 Sam Altman 近日在 X 平台发文称,将确保提供至少 20% 的计算资源专门用于 AI 安全相关的研究和开发工作。
我们重申,将致力于在整个公司范围内分配至少 20% 的计算资源用于安全工作,这一承诺自去年 7 月以来未曾改变。
我们的团队正与美国 AI 安全研究所合作,达成一项协议:我们将提前提供对我们下一个基础模型的访问权限,以便共同推进 AI 评估科学的发展。我们对这一合作感到非常期待!
最后,我们希望确保现任和前任员工能够自由地提出关切,并感到舒适。这对于任何公司都至关重要,对我们来说尤为关键,这也是我们安全计划的重要组成部分。
今年 5 月,我们取消了针对现任和前任员工的不贬低条款,以及赋予 OpenAI(尽管从未使用过)取消已授予股权的权利的规定。我们正努力纠正这些做法,确保一切公正合理。
本周,英伟达 CEO 黄仁勋和 Meta CEO 马克·扎克伯格在 SIGGRAPH 图形大会上进行了谈话,谈到了大量关于 AI、未来计算平台等等话题。
谈到开放和封闭的问题上,扎克伯格表示,两者都有合理性,Meta 也会做一些封闭源代码的项目,但他认为,对于整个行业正在构建的计算平台,软件开源将为整个行业带来巨大的价值。
扎克伯格表示,当他想要构建什么,但却被平台提供商拒绝后,他只想说「nah, that」,他对于封闭平台非常愤怒。
黄仁勋对此表示赞同,他也称赞了 Meta 的开源模型,认为大模型应该坚持开源的路线。
在现场,扎克伯格与黄仁勋也上演了一场「球衣交换」。扎克伯格特地订购了一件黑色毛领皮大衣,而黄仁勋也将自己标志性的皮外套与扎克伯格交换。
据钛媒体消息,在日前斯坦福大学举办的一场论坛闭门会上,「AI 教母」李飞飞表示,尽管 OpenAI 的 Sora 模型能够生成视频,但其核心仍是二维,缺乏对三维空间的深入理解。
相比之下,她认为只有「空间智能」才是实现通用人工智能(AGI)的关键。她以 Sora 模型生成的「日本女性走过霓虹闪烁东京街头视频」举例称:
如果你希望算法换个角度,来展现这个女子走过街头的视频,比如把摄像机放在女子背后,Sora 无法做到。因为这个模型对于三维世界并没有真正的深刻理解。而人类可以在脑海中想象女子背后的情景。
人类可以理解在复杂的环境下如何活动。我们知道如何抓取,如何控制,如何造工具,如何建造城市。根本而言,空间智能是几何形状,是物体间的关系,是三维空间。
值得一提的是,今年 7 月,由李飞飞创办的 AI 公司 World Labs 宣布完成新一轮融资,该公司目前主要专注于空间智能领域的研究和开发。