在OpenAI、微软及Google的语言生成AI(generative AI)模型搏得世人目光之际,身为发展AI模型先驱的Meta也公布了能产生文字的最新AI模型,也准备将之开源。
Meta执行长Mark Zuckerberg周五(2/24)透过脸书公布AI大型语言模型LLaMA(Large Language Model Meta AI)。他表示,大型语言模型已显示产生文字、对话、为文章做摘要、以及其他更复杂任务如解决数学定理或预测蛋白质结构的潜力。Meta将把LLaMA模型开放给AI研究社群,供研究人员进行不同领域研究。
LLaMA是一种较小型基础模型,可用作训练更大语言模型。这些模型以大量未标注的资料训练而成,很适合微调後用於多种任务,减少後续大型模型测试、验证及探索新使用情境的运算资源需求。
Meta解释,过去数十亿参数的大型自然语言处理(natural language processing,NLP)模型发展出产生创意文字、解决数学定理问题、预测蛋白质结构、回答阅读理解问题等能力。但是训练和执行这类大型模型的资源,不是所有人都有,也限制了研究的进展,并造成语言模型的偏见、毒性(toxicity)和产生错误资讯。相对的,小型模型是以更多token(小段字词)训练,比较容易为特定使用情境重训练及微调。
Meta最小的模型LLaMA 7B以一兆token训练、LLaMA 65B及33B则以1.4兆token训练。此外,他们选择从20种使用人口最多的语言之文字字词为训练输入,其中以拉丁和西里尔(Cyrillic,一种斯拉夫语)字母为主。
以参数而言,Meta的LLaMA有多种规模,分成70亿、130亿、330亿及650亿个参数。Meta也提供了LLaMA模型卡(model card)透明度工具,像是标竿测试模型对模型偏差和毒性的评估值,供研究人员了解模型的限制。
有兴趣的研究人员需在Meta网页申请使用LLaMA。