谷歌推出 DolphinGemma,助力人类与海豚 “对话”
人类也能和海豚对话了!谷歌推出了DolphinGemma,一款基于谷歌多年积累的海豚声音数据精心训练而成的人工智能模型,其诞生旨在为实现跨物种交流提供有力支持。
当地时间 4 月 14 日,正值世界海豚日,谷歌首席执行官皮猜兴奋地向世人宣布了一项重大成果 ——DolphinGemma。这是一款基于谷歌多年积累的海豚声音数据精心训练而成的人工智能模型,其诞生旨在为实现跨物种交流提供有力支持。
值得关注的是,DolphinGemma 的模型参数仅为 400M,体量小巧到可直接在谷歌 Pixel 9 手机上流畅运行。皮猜还透露,谷歌预计在今年夏天将 DolphinGemma 开源,以此推动全球范围内的科学合作,相关开源计划可关注谷歌官方AI 研究动态 。有趣的是,在发布时间上,谷歌与老对手 OpenAI 再次狭路相逢,OpenAI 同期推出了 GPT 4.1。
DolphinGemma 经训练后,能够深入学习海豚的发声结构,并生成与之类似的声音序列。其原理与大语言模型预测下一个 token 相仿,通过精准识别输入的海豚音频,对后续可能出现的声音进行预测,进而逐步揭开这些声音背后隐藏的潜在含义。该模型运用了谷歌独有的音频技术,其中 SoundStream 分词器能够迅速将海豚声音转化为计算机可理解的信号,随后由擅长处理复杂序列的模型架构接手处理,关于该技术的详细介绍可查看谷歌AI技术文档。
为训练 DolphinGemma,谷歌与 Wild Dolphin Project(WDP)展开了深度合作,更多关于 WDP 的信息可在其官方网站了解。WDP 长期专注于海豚社会研究,积累了海量珍贵数据集。自 1985 年起,WDP 对巴哈马群岛中一个野生大西洋斑点海豚群落进行了跨世代研究,这个 “世界上持续时间最长的水下海豚研究项目”,历经数十年收集了大量水下视频和音频资料,并且为每只海豚建立了详细档案,涵盖身份信息、生活史以及所观察到的行为。DolphinGemma 正是基于 WDP 的野生大西洋斑点海豚声学数据库进行了广泛且深入的训练。
除探究海豚交流方式外,WDP 还与佐治亚理工学院携手,开发了水下应用 CHAT(Cetacean Hearing Augmentation Telemetry)。CHAT 的设计初衷并非直接破解海豚复杂的自然语言,而是构建一套更为简单的共享词汇体系。具体而言,CHAT 会将合成哨声与海豚喜爱的特定物体,如海藻、海草或研究人员使用的围巾等建立关联。通过人类的引导,天生好奇心旺盛的海豚有望学会模仿这些哨声来表达对相应物品的需求。随着对海豚自然声音理解的不断加深,更多自然声音也将被纳入该系统。CHAT 设备借助水下扬声器和麦克风实现声音的收发,通过模仿海豚哨声,搭建起一座人类与海豚之间的基础沟通桥梁,若想进一步了解 CHAT 技术细节可参考佐治亚理工学院相关研究报告 。
谷歌表示,Pixel 6 手机已能够实时处理高保真海豚声音分析。而计划于 2025 年夏季投入使用的 Pixel 9,将在此基础上实现进一步升级。Pixel 9 将集成扬声器和麦克风功能,借助手机强大的处理能力,可同时运行深度学习模型和模板匹配算法。这将极大地提升研究人员分析海豚声音的效率,使人类与海豚能够进行更为复杂的互动,更多关于 Pixel 9 在该研究中的应用可关注谷歌手机官方技术介绍 。