原标题:Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社希望发现和投资非凡创业者(AlphaFounders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。
1.Sam Altman或筹数十亿美元自造AI芯片,Altman担心,随着AI技术的普及,现有的芯片供应将不足以满足大规模部署的需求,OpenAI寻求获得算力基础设施的独立性,他的资产金额来源可能包括阿布扎比的G42和软银集团。
2.能力达到奥数金牌级,DeepMind几何推理模型登上Nature,这个叫AlphaGeometry的模型在国际数学奥林匹克(IMO)的30道几何题中做出了25道,这一成就标志着AI在数学领域推理能力的史诗级升级。
3.DeepMind首席科学家Laurent Sifre或与同事Karl Tuyls离开公司创业,新公司将专注于构建新的AI模型,首轮融资可能将超过2亿欧元。
1.19位OpenAI「黑手党」出走创业,融资近80亿美元!华人科学家占比近1/3
这些企业中,发展最好的是Anthropic,目前它已融资72.5亿美元,成为OpenAI最强劲的对手。其他融资过亿的公司还包括Covariant(智能机器人),Cresta(人工智能驱动的效率工具),Pilot(AI驱动的金融科技),Perplexity(领先的AI搜索引擎)。
2.GPT-5被5万张H100卡脖子!奥特曼筹数十亿美元建全球晶圆厂网络,自造AI芯片
OpenAI的CEO Sam Altman正筹集数十亿美元,计划建立全球性的半导体晶圆厂网络,以应对GPT-5训练中的芯片短缺问题。GPT-5预计需要5万张H100芯片。为了获得算力基础设施的独立性,OpenAI决定不再依赖英伟达,而是自行建立AI芯片生产线。
Altman担心,随着AI技术的普及,现有的芯片供应将不足以满足大规模部署的需求。他的目标是在未来几年内建成一个自给自足的半导体供应链。他在达沃斯经济论坛上表示,未来世界的两大货币将是算力和能源。OpenAI的资产金额来源可能包括阿布扎比的G42和软银集团。
OpenAI近日推出多个新模型包括两个文本嵌入模型、升级版的GPT-4 Turbo和GPT-3.5 Turbo以及一个审核模型。GPT-4 Turbo预览版(gpt-4-0125-preview)特别针对代码生成等任务进行了优化,以减少模型的“懒惰”行为。OpenAI还计划推出具有视觉功能的GPT-4 Turbo,并在未来几个月全面发布。
OpenAI还推出了两个新的文本嵌入模型:text-embedding-3-small和text-embedding-3-large,前者性能比前代模型大幅度的提高,价格降至1/5;后者能创建最高3072维数的嵌入,性能更强,价格亦十分经济。
GPT-3.5 Turbo的新版本也将推出,输入价格降低50%,输出价格减少25%。此外,OpenAI发布了最新的审核模型text-moderation-007,作为其持续安全工作的一部分,旨在识别潜在有害的文本,是迄今为止最强大的审核模型。
最后,ChatGPT也更新了功能,现在用户都能够在对话中通过@符号调用GPT商店里的任意GPTs。例如,用户都能够直接在对话中@NotionGPT,让其自动总结对话内容并保存到Notion笔记中。
马克·扎克伯格近日宣布,为了构建通用AI(AGI)并负责任地开源,Meta正在进行大规模的AI研究部门重组。Meta计划购买超过35万块英伟达H100 GPU,到2024年底,Meta的GPU算力有望达到等效近60万H100。
扎克伯格强调,为实现AGI,Meta需要拥有业内最强大的AI算力。他透露,Meta正在训练的Llama 3将具有更强的代码生成能力,并将具备更高级的推理和规划能力。
此外,扎克伯格还提到,Meta将推出一个新平台,允许任何人创建自己的人工智能角色,并将其分发到Meta的社交应用程序中,如Facebook、Instagram。
他还表示,生成式AI将在Meta的硬件研究中发挥关键作用,AI将与智能设备结合,如Ray-ban智能眼镜,以实现更智能化的互动。
5.国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4
智谱AI最近发布了新一代基座大模型GLM-4,这一模型在在多项性能指标上已接近或超过GPT-4,并在中文能力和长文本处理上展现出卓越的性能。GLM-4的推出标志着国产大模型在全球AI领域的重要进步。
此外,GLM-4还增强了多模态能力,其CogView3模型在多项评测维度上达到了DALL·E3的90%以上水平。
智谱AI还发布了GLMs和GLM Store,为用户更好的提供定制化的个人GLM大模型和模型应用商店。GLMs降低了大模型的使用门槛,允许用户通过简单的指令创建自己的GLM模型智能体,从而便捷地开发大模型应用。GLM Store则为开发者提供了分成计划,推动了AI技术的广泛落地。
谷歌经过7个月的密集研发,推出了名为Lumiere的AI视频大模型,与传统的AI视频生成模型不同,Lumiere能够在一个连贯的过程中生成整个视频,明显提升视频的长度和质量。
Lumiere的Space-Time U-Net(STUNet)架构是其核心创新之一,它能够同时在空间和时间上进行下采样和上采样,解决了AI视频在运动连贯性、一致性和伪影方面的常见问题。
与之前的模型相比,STUNet能够直接生成全帧率的低分辨率视频,避免了传统模型在生成全局连贯运动时的限制。这一架构能够直接生成长达5秒的80帧视频,超过了大多数媒体中的平均镜头长度,以此来实现了更加连贯一致的运动表现。
7.能力达到奥数金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞
谷歌DeepMind的AlphaGeometry模型在国际数学奥林匹克(IMO)的30道几何题中做出了25道,表现接近人类奥数金牌得主的水平,这一成就标志着AI在数学领域推理能力的史诗级升级,并已被发表在《Nature》杂志。
AlphaGeometry结合了语言模型和符号引擎,利用符号和逻辑规则进行数学推论。语言模型擅长识别和预测流程的后续步骤,而符号引擎则基于形式逻辑和严格的规则,引导语言模型走向理性决策。
AlphaGeometry模型是通过合成数据而非使用真实数据训练出来的。训练时,首先生成了十亿个随机几何图形,分析每个图形中点和线的所有关系,然后找出每个图形中所有的证明,并逆向追溯出为得到这些证明所需添加的额外几何元素。这种方法结合了神经语言模型和符号演绎引擎的优势,形成了一个神经符号系统。
菲尔兹奖得主Ngô Bảo Châu(吴宝珠)对AlphaGeometry的成就表示赞赏。他认为,这是一项令人印象非常深刻的成就,展示了AI在数学推理方面的巨大潜力。
AlphaGeometry的成果不仅在数学领域引起了轰动,也在AI领域引发了广泛关注。它的成功证明了AI在解决复杂数学问题上的巨大潜力,尤其是在逻辑推理和证明方面。
8.大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
Meta和纽约大学的研究团队最近提出了一种创新的“自我奖励语言模型”方法,使得微调后的Llama 2-70B模型在AlpacaEval 2.0排行榜中超越了GPT-4、Claude 2和Gemini Pro等领先的大语言模型。
这项研究的突破在于让大模型生成自己的训练数据并评估这一些数据的质量,然后使用这一些数据进行自我训练。这种方法使得大模型在迭代训练过程中能够不断自我改进。
具体来说,模型首先根据少量人工标注数据来进行预训练,获得初始化模型。然后,模型生成新的指令和多个候选回复,并使用LLM-as-a-Judge的提示,对自己生成的回复进行打分。根据打分形成新的训练数据,继续训练模型。这样的迭代训练过程使得模型在每次迭代中都能提升遵循指令的能力和打分能力。
研究结果为,在3次迭代中,Llama 2-70B模型的指令遵循能力有显著提升,同时奖励建模能力也在提高,评价结果与人工判断的相关性更高。这表明模型在迭代过程中不仅指令遵循能力提高,也更善于对自己生成的回复进行判断。迭代第三次的模型在AlpacaEval 2.0基准测试中战胜了Claude 2、Gemini Pro、GPT-4 0613等模型。
9.马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究明显地增强视觉理解能力
纽约大学和UC伯克利的研究团队,包括知名学者马毅、谢赛宁和图灵奖获得者LeCun,发现了多模态大模型(MLLM)在视觉理解方面的重大缺陷,并提出了一种创新方法来有效提升这些模型的视觉功能。
研究团队指出,当前的多模态模型在视觉处理方面存在普遍性的缺陷,尤其是在特定场景下对图像内容的识别能力不够。例如,GPT-4V在一些简单的图像识别问题上表现挣扎,如老鹰只有一只眼、车门是关着的等。这样一些问题在人类看来很容易回答,但多模态大模型却难以准确识别。
研究团队发现,这种视觉缺陷的根本原因是“对比语言-图像预训练盲对(CLIP-blind pairs)”,即CLIP模型在编码时无法准确识别视觉上不同但编码相似的图像。
为了解决这一个问题,研究人员提出了“交错特征混合(Interleaved-MoF)”方法,该方法结合了CLIP和DINOv2特征,明显地增强了视觉基础能力。在MMVP基准测试中,这种方法实现了10.7%的性能提升,同时保持了模型遵循指令的能力。
此外,研究人员还识别出了CLIP模型无法处理的一些系统性视觉模式,并创建了一个新的基准:MMVP-VLM,用于系统研究CLIP模型处理这些视觉模式的能力。
Sakana AI的创始人认为现今AI模型过于僵化和脆弱,无法适应环境。他们从自然界的集体智慧、进化和涌现等原则中获取灵感,构建更灵活、反应灵敏的人工智能模型。
Sakana来源于日语さかな,意为“鱼”。其背后的理念是“让一群鱼聚集在一起,从简单的规则中形成一个连贯的实体”。
Sakana构建AI的方式与Open AI等公司相比具有较大的差别,后者通常将所有数据输入一个大型AI程序,而不是一系列小型程序。Sakana则致力于开发能以较少数据运行的、比大型模型更能高效协同运作的较小型模型,他们可以高效、灵活地生成文本、图像、代码和多媒体内容。不过截至目前,Sakana AI目前没有公开透露任何具体的项目或产品。
2.Google DeepMind首席科学家正筹划在巴黎成立人工智能公司,首轮融资可能超2亿欧元
Laurent Sifre是DeepMind的首席科学家,也是AlphaGo研究论文的合著者。除了该论文,Sifre还参与发表过几十篇论文,包括用于蛋白质结构预测的深度学习系统AlphaFold、以及在星际争霸游戏中跻身人类玩家前0.2%的AI系统AlphaStar。目前,Sifre论文引用次数超过48000次。
Karl Tuyls作为Game Theory&MultiAgent团队负责人,在DeepMind任职超过7年。Tuyls一直专注研究用于训练和评估智能体的博弈论技术和动态博弈论的发展,该领域通常通过游戏来探索自主参与者之间的交互。同时,Tuyls也致力于多机器人系统的研究。目前,Tuyls发表过几十篇论文,引用次数超过12000次。
ElevenLabs的核心功能是AI语音生成,它能创建逼真的声音,并可针对语调、情感、节奏和其他关键声音特征做调整切换。
ElevenLabs此前发布了一款“语音转语音”工具,该工具能保留说话者的声音、韵律和语调,同时自动消除背景噪音,并且在电影和电视节目的情况下,将语音与源材料来翻译和同步。
在商业化上,公司旨在创建有声读物,为电影和电视节目配音,以及为游戏和营销活动生成角色声音。它的客户包括Paradox Interactive(游戏开发商),《》以及其他出版、媒体和娱乐公司。
不过,公司也面临一些争议,例如有人担心AI生成的语音能够最终靠银行身份验证系统。
智能医院平台Artisight从新的战略和医疗系统投资者,以及包括NVIDIA在内的投资人那里获得了4200万美元B轮融资。该企业成立于2017年,目前它的累计融资额达到5700万美元。
Artisight的智能医院平台基于先进的人工智能技术,专为临床医生开发,通过物联网传感器与深度学习简化端到端流程,从而增强患者护理。这能帮助医疗系统的护理人员和临床医生减轻压力。
Artisight利用计算机视觉、语音识别、生命体征监测、室内定位等技术和功能,减少临床医生的文档和协调负担,增加直接患者护理的时间,降低管理成本,并支持更好的患者治疗效果和满意度。
Artisight由Andrew Gostine、Garrett Larance和Tim Koby共同创立。Andrew Gostine(CEO)曾是重症监护麻醉师,这有助于他发现和解决医院工作流程中的实际问题;Garrett Larance(COO)曾任职于丰田汽车,对减少周转时间,改进工作流程有丰富经验;Tim Koby(首席科学家)专注于物理系统建模的计算方式,拥有哈佛大学物理学博士学位。
Recraft是一款面向专业设计师的AI图形设计生成器,它允许用户通过文本提示生成图像,上线多万设计师用户。Recraft声称自己正在构建自己的基础模型,用以生成一致的设计元素,如图标、图片等。
它使用户能根据自己的品牌风格生成图片,同时,相比于仅生成光栅图像的大多数生成式 AI 工具,Recraft还能够生成高质量的矢量图,这些图像具有无限可伸缩性。
Recraft的创始人是Anna Veronika Dorogush,她毕业于莫斯科国立大学,曾在Yandex数据分析学院学习了数据分析,并在Google和Microsoft担任过软件工程师,此后她在Yandex担任机器学习系统负责人。
FlutterFlow是一个建立在Flutter框架(由Google构建的开源UI工具包)之上的无代码/低代码应用程序开发平台,它允许用户在不编写任何代码的情况下创建移动、Web和桌面应用程序。虽然许多低代码平台专注于跨平台开发,但FlutterFlow已经做出了专注于原生应用程序开发的战略决策,这种方法使FlutterFlow能够提供更高性能和更具吸引力的用户体验。
此外,FlutterFlow还推出了AI驱动的代码助手,可以依据给定的功能需求生成代码。目前,FlutterFlow拥有830000名用户,并部署了超过12000个应用程序,由超过10亿行代码组成。
本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。