LLM输出长度预测¶
一、任务说明¶
1.1 背景要求¶
基于 Transformer 的大语言模型(LLM)在推理过程中具有自回归的特性,即生成过程是逐词(token-by-token)进行的。在每一步生成中,模型根据先前生成的 token 来预测下一个 token,直到生成结束标志(如
- 方法一(独立模型):使用BERT构建分类器,仅通过输入文本预测输出长度区间
- 方法二(架构修改):修改Llama-3.2-1B-Instruct模型结构实现端到端预测,不使用任何外部的辅助模型进行预测
1.2 数据集说明¶
数据集类型 | 内容描述 | 备注 |
---|---|---|
提供的数据集 | dataset.csv |
在附件中的文件。包含prompt和使用Llama-3.2-1B-Instruct进行5次实验的输出长度均值 |
评分数据集 | judge.csv |
需要提交的文件。仅包含prompt。 |
二、方法设计规范¶
2.1 BERT分类方案(方法一)¶
核心要求¶
-
特征编码:
-
长度分桶策略:
- 类别0: ([0, 200)) tokens
- 类别1: ([200, 400)) tokens
- 类别2: ([400, 600)) tokens
- 类别3: ([600, 800)) tokens
- 类别4: (≥800) tokens
-
模型约束:
- 在该实验中,你不需要实际使用LLM进行推理,该实验的预测过程与LLM生成过程完全解耦。
2.2 LLM结构修改(方法二)¶
架构修改¶
-
模型架构设计。
- 在Llama-3.2-1B-Instruct的基础上,修改模型结构实现输出长度预测。需要考虑模型设计。
-
训练策略。
- 需要考虑优化长度预测任务。
-
防干扰机制。
- 不使用任何外部的辅助模型进行预测,且不会影响实际输出内容质量和长度。
三、实验实施要求¶
3.1 数据预处理¶
- 统一使用Llama-3的SentencePiece分词器处理
3.2 评估指标¶
本实验不限制具体的评估指标。你需要确保评估指标能够合适地衡量长度预测的准确性,例如:如果采用分类任务,可能采用分类任务的常用评估指标。你还可以将其视为其他合适任务。
3.3 必做实验¶
- 基线对比:对比提示词方法("请先预测回答长度")的预测误差
- 消融实验:验证联合训练策略的有效性(关闭MSE_Loss)
四、提交要求¶
4.1 提交内容¶
-
代码包:
-
实验结果:
- 测试集预测结果CSV文件(含ID、预测长度、真实长度三列)
- 各实验的评估指标对比表格(Markdown格式)
4.2 评分标准¶
评分维度 | 细则说明 | 占比 |
---|---|---|
方法创新性 | BERT特征工程/LLM修改设计的合理性 | 25% |
结果准确性 | 测试集MAE ≤ 100 tokens | 40% |
代码质量 | PEP8规范、模块化设计、注释完整性 | 20% |
报告质量 | 实验分析深度、可视化呈现效果 | 15% |
五、注意事项¶
-
硬件限制:
- 方法一允许在CPU环境运行
- 方法二需提供简要的GPU内存占用分析(使用nvidia-smi记录)
-
实验要求:
- 不要通过任何方式干预和引导模型的生成长度,包括但不限于:预设prompt引导生成长度、截断模型生成等。
- 需提交训练过程的loss曲线截图
-
参考文献:
- 如果你在实验和报告中参考了已发表的文献,请列出你所参考的相关文献。
-
如有疑问,请联系 wzbwangzhibin@gmail.com 或 spli161006@gmail.com。