AI中国网 https://www.cnaiplus.com
谷歌最新一代大模型 PaLM 2 的训练细节再次泄露,据称它的训练数据量是前代的近五倍,参数量则是前代的三分之二左右。
谷歌 CEO 皮查伊在上周四的 2023 谷歌 I/O 大会上宣布推出对标 GPT-4 的大模型 PaLM 2,并发布预览版本,改进了数学、代码、推理、多语言翻译和自然语言生成能力。PaLM 2 模型提供四个不同尺寸的版本,从小到大依次为 Gecko、Otter、Bison 和 Unicorn,便于根据不同用例进行部署。轻量级的 Gecko 模型可以在移动设备上运行,速度非常快,不联网也能在设备上运行出色的交互式应用程序。虽然谷歌在大会上尚未公布 PaLM 2 的具体技术细节,只透露它是构建在谷歌最新 JAX 和 TPU v4 之上,但昨日,据外媒 CNBC 援引内部文件称,PaLM 2 是在 3.6 万亿个 token 上训练,参数量为3400亿,远低于PaLM的5400亿,这也超过了之前预测的80B/90B/100B的较小参数。此外,谷歌表示PaLM 2 比以前的 LLM 规模更小,这意味着在完成更复杂任务的同时变得更加高效。虽然谷歌一直希望展示其AI技术的能力以及如何嵌入到搜索、电子邮件、文件处理和电子表格中,但并不愿意公布其训练数据的大小或其他细节,与OpenAI类似,均表示不披露细节是源于业务的竞争属性。随着AI军备竞赛的升温,越来越多的人要求提高透明度。一些网友在谷歌官宣 PaLM 2 之初,根据 Chinchilla 定律预测其参数量,但预测的结果与内部文件中的参数相差甚远。还有人对 PaLM 2 的训练成本进行了预测,表示建造 PaLM 2 需要耗资 1 亿美元。另外,一些网友猜测,PaLM 2 token 数的泄露或可用于推测Bard模型等。参考链接:https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.htmlAI中国网 https://www.cnaiplus.com
本文网址: