【GPT总结】Why Can GPT Learn In-Context?-实验

这篇论文使用了六个分类数据集，分别是SST2、SST5、MR、Subj、AGNews和CB。任务类型是情感分类、主题分类和自然语言推理。评价指标包括零样本学习（ZSL）、微调（FT）和上下文学习（ICL）设置下的准确率。

在每个数据集、任务类型和评价指标上，该方法实现了不同的性能。以SST2数据集为例，GPT 1.3B在ZSL、FT和ICL设置下的准确率分别为70.5、73.9和92.7；而GPT 2.7B在相同设置下的准确率分别为71.4、76.9和95.0。与现有方法相比，该方法在ICL设置下取得了更高的准确率，特别是在GPT 2.7B上的表现更为突出。

具体数值如下：

SST2数据集：
- GPT 1.3B：ZSL 70.5，FT 73.9，ICL 92.7
- GPT 2.7B：ZSL 71.4，FT 76.9，ICL 95.0
SST5数据集：
- GPT 1.3B：ZSL 39.3，FT 39.5，ICL 45.0
- GPT 2.7B：ZSL 35.9，FT 39.1，ICL 46.5
MR数据集：
- GPT 1.3B：ZSL 65.9，FT 73.0，ICL 89.0
- GPT 2.7B：ZSL 60.9，FT 80.0，ICL 91.3
Subj数据集：
- GPT 1.3B：ZSL 72.6，FT 77.8，ICL 90.0
- GPT 2.7B：ZSL 75.2，FT 86.1，ICL 90.3
AGNews数据集：
- GPT 1.3B：ZSL 46.3，FT 65.3，ICL 79.2
- GPT 2.7B：ZSL 39.8，FT 65.7，ICL 80.3
CB数据集：
- GPT 1.3B：ZSL 37.5，FT 55.4，ICL 57.1
- GPT 2.7B：ZSL 42.9，FT 57.1，ICL 55.4

这些结果表明，在不同数据集和任务类型下，ICL相对于ZSL和FT都取得了更好的性能，特别是在更大规模的GPT 2.7B模型上表现更为显著。