论文笔记–Toolformer: Language Models Can Teach Themselves to Use Tools

首页
互联网
正文

本文介绍: Toolformer-一个可自动访问API的语言模型工具

论文笔记–Toolformer: Language Models Can Teach Themselves to Use Tools

1. 文章简介
2. 文章概括
3 文章重点技术
- 3.1 Toolformer
- 3.2 APIs
4. 文章亮点
5. 原文传送门

1. 文章简介

标题：Toolformer: Language Models Can Teach Themselves to Use Tools
作者：Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom
日期：2023
期刊：arxiv preprint

2. 文章概括

文章给出了一种可以自动调用API的LLM方法“Toolformer”，该工具可以自行决定是否调用API，何时调用API以及调用什么API，从而达到通过API检索增强增加LLM回答的可靠性。

3 文章重点技术

3.1 Toolformer

给定语言模型

$M$ ，给定一系列可供调用的API接口

(

)

c=(a_c, i_c)

$c = (a_{c}, i_{c})$ ，其中

a_c

$a_{c}$ 为API的名称，

i_c

$i_{c}$ 为API的输入，API会返回结果

$r$ ，记

(

)

(

)

→

)

e(c, r) = <API> a_c(i_c) to r</API>)

$e (c, r) =< A P I & g t; a_{c} (i_{c}) \to r < / A P I & g t;)$ ，其中

→

<API>, </API>, to

$< A P I >, < / A P I >, \to$ 表示特殊token，用于区分API的输入和输出。给定数据集

{

…

∣

}

mathcal{C} = {x^1, dots, x^{|mathcal{C}|}}

$C = {x^{1}, \dots, x^{∣ C ∣}}$ ，其中

x^i

$x^{i}$ 表示输入的文本。则Toolformer按照如下的步骤进行训练、推理：

Sampling API Calls：首先，对每个API接口，我们设计一个对应的prompt“ $x_1, dots, x_{i-1}, P(x) x1,…,xi−1,P(x)预测下一个token是 < A P I > <API> <API>的概率 p i = p M ( < A P I > ∣ P ( x ) , x 1 : i − 1 ) p_i = p_M (<API>|P(x) , x_{1:i-1}) pi=pM(<API>∣P(x),x1:i−1)，如果条件概率值高于给定阈值 τ s tau_s τs，则认为模型应该在该位置调用API，如果存在高于 k k k个位置的概率值大于 τ s tau_s τs，则只保留top k k k个位置。最终得到需要调用API的位置集合 I = { i ∣ p i > τ s } I={i|p_i > tau_s} I={i∣pi>τs}(不超过k个)。接下来，对每个 i ∈ I iin I i∈I，我们基于 [ P ( x ) , x 1 , … , x i − 1 , < A P I > ] [P(x), x_1, dots, x_{i-1}, <API>] [P(x),x1,…,xi−1,<API>]调用API接口得到接下来的预测结果。$
Executing API Calls: 接下来执行上述语言模型自动生成的API调用文本 $c_i ci，得到对应的结果 r i r_i ri。$
Filtering API Calls：令 $L_i(z) = –sum_{j=i}^n w_{j-i} log p_M(x_j | z, x_{1:j-1})\L_i^+ = L_i(e(c_i, r_i))\L_i^- = min (L_i(epsilon), L_i(e(c_i, epsilon))) Li(z)=−j=i∑nwj−ilogpM(xj∣z,x1:j−1)Li+=Li(e(ci,ri))Li−=min(Li(ϵ),Li(e(ci,ϵ)))，其中 ϵ epsilon ϵ表示空序列。上述 L i + L_i^+ Li+实际表示给定 x 1 , … , x j − 1 x_1, dots, x_{j-1} x1,…,xj−1和API返回结果 r i r_i ri，模型预测得到 x j x_j xj的加权概率的负数， L i − L_i^- Li−表示不进行API访问，或者只进行API访问但是不返回结果的情况下，模型得到 x j x_j xj的最小损失。如果 L i + L_i^+ Li+比 L i − L_i^- Li−小很多，则可以认为访问API确实带来了收益。从而我们可以通过设置阈值 τ f tau_f τf，当 L i − − L i + ≥ τ f L_i^- – L_i^+ ge tau_f Li−−Li+≥τf时，认为模型应该在 i i i位置访问API。$
Model Finetuning：给定文本 $(c_i, r_i) (ci,ri)，我们可重写输入文本为 x 1 : i − 1 , e ( c i , r i ) , x i : n x_{1:i-1}, e(c_i, r_i), x_{i:n} x1:i−1,e(ci,ri),xi:n，最后基于数据集 C mathcal{C} C生成SFT数据集 C ∗ mathcal{C}^* C∗。在 C ∗ mathcal{C}^* C∗上对模型进行微调，得到我们的toolformer工具。$
Inference：推理阶段，我们进行正常的解码，直至模型生成