Description
问题描述
📣PaddleNLP 快乐开源活动
旨在鼓励更多的开发者参与到飞桨大模型套件的开源建设中,帮助社区修复 bug 或贡献 feature,共建飞桨。
🔥热身任务
跑通 Qwen2 的训练流程,通过完成本任务,可以收获如何进行大语言模型预训练和微调,也可以快速上手PaddleNLP。
🌈命题任务
命题任务是我们总结整理大模型套件的需求得出,每个任务上标注了任务难度,大家可以选择参与。欢迎对这些需求感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中,你能进行包括任务分解、代码撰写等工作,还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么,快来参与吧。🎉🎉
认领方式
请大家以 comment 的形式认领任务,如:
【报名】:1、3、12-13
多个任务之间需要使用中文顿号分隔,报名多个连续任务可用横线表示,如 2-5
PR 提交格式:在 PR 的标题中以【PaddleNLP No.xxx】开头,注明任务编号
任务列表
mentor:@DrownFish19 @ZHUI
大语言模型训练
当前训练文档从资深开发者角度出发,说明了如何使用paddlenlp进行训练,但是还缺少详细说明。快乐开源以新手视角重新审视文档,希望结合数据制作、模型训练和参数调优等方面详细介绍说明如何上手paddlenlp。不用担心自己没有经验,我们欢迎所有开发者前来体验,如果有任何问题欢迎提出issue(24小时内回复)。
验收标准:在星河平台(aistudio)构建训练文档后,导出notebook为markdown格式,上传至PaddleNLP/llm/docs/目录。(导出后显示细节可能存在差异,请检查修改)
序号 | 任务名称 | 任务类型 | 任务描述 | 难度 | 优先级 | 认领人/状态/PR号 |
---|---|---|---|---|---|---|
1 | 预训练文档 | 文档 | 扩充预训练文档,补充完善实例教程至星河社区 | 🌟 | P1 | @ZJhorseloudly @HangFu7 @Echo-Nie |
2 | 精调文档 | 文档 | 扩充精调训练文档,补充完善实例教程至星河社区 | 🌟 | P0 | @ZJhorseloudly @HangFu7 @hanlintang |
3 | 对齐文档 | 文档 | 扩充对齐训练文档,补充完善实例教程至星河社区 | 🌟 | P0 | @HangFu7 @hanlintang |
4 | 量化文档 | 文档 | 扩充量化文档,补充完善实例教程至星河社区 | 🌟 | P1 | @HangFu7 @hanlintang |
小模型Paddle 高扩展中间表示PIR适配
飞桨框架3.0 Beta 版本延续了2.x版本动静统一、训推一体的设计理念,其开发接口全面兼容2.x版本。这意味着,使用2.x版本开发的代码,在绝大多数情况下无需修改,即可直接在3.x版本上运行。其中高扩展中间表示PIR(Paddle Intermediate Representation)作为升级功能点之一,支撑着动转静、自动微分、自动并行、组合算子、图优化等多项技术,并广泛应用于分布式训练、模型压缩、推理部署等场景。通过PIR提供的DRR(Declarative Rewrite Rule)机制,Pass的开发成本可以降低60%。我们对超过900个模型配置进行了测试,结果显示,在使用PIR后,推理的整体性能提升了超过10%。但是当前小模型适配PIR的并没有全部验证修改,亟需开发者参与适配。
任务要求:修复特定模型或特定任务,完成PIR模型动转静验证,并在CI运行脚本(scripts/regression/ci_case.sh)增加对应的测试用例。
修改示范:
from paddlenlp.utils.env import PADDLE_INFERENCE_MODEL_SUFFIX, PADDLE_INFERENCE_WEIGHTS_SUFFIX
# static_model_name = "xxx.pdmodel"
static_model_name = f"xxx{PADDLE_INFERENCE_MODEL_SUFFIX}"
# static_model_path = "xxx.pdiparams"
static_model_path = f"xxx{PADDLE_INFERENCE_WEIGHTS_SUFFIX}"
NO | 任务名称 | 任务类型 | 任务描述 | 难度 | 优先级 | 认领人/状态/PR号 |
---|---|---|---|---|---|---|
5 | slm/applications/neural_search | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
6 | slm/applications/text_classification | 代码和文档 | PIR适配 | 🌟 | P2 | @VVX94 @hanlintang |
7 | slm/examples/information_extraction | 代码和文档 | PIR适配 | 🌟 | P2 | @VVX94 @Echo-Nie |
8 | slm/examples/lexical_analysis | 代码和文档 | PIR适配 | 🌟 | P2 | @VVX94 @Echo-Nie |
9 | slm/examples/machine_reading_comprehension | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
10 | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
|
11 | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
|
12 | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
|
13 | slm/examples/sentiment_analysis | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
14 | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
|
15 | slm/examples/text_matching/ernie_matching | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
16 | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
|
17 | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
|
18 | slm/model_zoo/bert | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
19 | slm/model_zoo/ernie-1.0 | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
20 | slm/model_zoo/ernie-3.0 | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
21 | slm/model_zoo/ernie-3.0-tiny | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
22 | slm/model_zoo/ernie-layout | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
23 | slm/model_zoo/ernie-vil2.0 | 代码和文档 | PIR适配 | 🌟 | P2 | @Echo-Nie |
24 | slm/model_zoo/gpt-3/ppfleetx/core/engine | 代码和文档 | PIR适配 | 🌟 | P2 | @Echo-Nie |
25 | slm/model_zoo/uie | 代码和文档 | PIR适配 | 🌟 | P2 | @Echo-Nie |
26 | slm/pipelines/pipelines/nodes/document | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
27 | llm/server/server/server/engine/infer.py | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
28 | tests/experimental/autonlp | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
29 | tests/test_tipc/bert_base_text_cls | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
30 | tests/test_tipc/bigru_crf | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
31 | tests/test_tipc/ernie_information_extraction | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
32 | tests/test_tipc/ernie_text_cls | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
33 | tests/test_tipc/ernie_text_matching | 代码和文档 | PIR适配 | 🌟 | P2 | @Echo-Nie |
34 | tests/transformers/chatglm | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
35 | tests/transformers/test_generation_utils.py | 代码和文档 | PIR适配 | 🌟 | P2 | @hanlintang |
看板信息
任务方向 | 任务数量 | 提交作品 / 任务认领 | 提交率 | 完成 | 完成率 |
---|---|---|---|---|---|
飞桨大语言模型快乐开源活动 | 35 | 29 / 35 | 82.86% | 29 | 82.86% |
统计信息
排名不分先后 @Echo-Nie (7) @hanlintang (22)
Metadata
Metadata
Assignees
Labels
Type
Projects
Status