Skip to content

PaddleNLP 快乐开源活动 (2025 H1) 🎉 #9763

Closed
@DrownFish19

Description

@DrownFish19

问题描述

📣PaddleNLP 快乐开源活动

旨在鼓励更多的开发者参与到飞桨大模型套件的开源建设中,帮助社区修复 bug 或贡献 feature,共建飞桨。

🔥热身任务

跑通 Qwen2 的训练流程,通过完成本任务,可以收获如何进行大语言模型预训练和微调,也可以快速上手PaddleNLP。

🌈命题任务

命题任务是我们总结整理大模型套件的需求得出,每个任务上标注了任务难度,大家可以选择参与。欢迎对这些需求感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中,你能进行包括任务分解、代码撰写等工作,还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么,快来参与吧。🎉🎉

认领方式

请大家以 comment 的形式认领任务,如:
【报名】:1、3、12-13

多个任务之间需要使用中文顿号分隔,报名多个连续任务可用横线表示,如 2-5
PR 提交格式:在 PR 的标题中以【PaddleNLP No.xxx】开头,注明任务编号

任务列表

mentor:@DrownFish19 @ZHUI

大语言模型训练

当前训练文档从资深开发者角度出发,说明了如何使用paddlenlp进行训练,但是还缺少详细说明。快乐开源以新手视角重新审视文档,希望结合数据制作、模型训练和参数调优等方面详细介绍说明如何上手paddlenlp。不用担心自己没有经验,我们欢迎所有开发者前来体验,如果有任何问题欢迎提出issue(24小时内回复)。

验收标准:在星河平台(aistudio)构建训练文档后,导出notebook为markdown格式,上传至PaddleNLP/llm/docs/目录。(导出后显示细节可能存在差异,请检查修改)

序号 任务名称 任务类型 任务描述 难度 优先级 认领人/状态/PR号
1 预训练文档 文档 扩充预训练文档,补充完善实例教程至星河社区 🌟 P1 @ZJhorseloudly
@HangFu7
@Echo-Nie #10506
2 精调文档 文档 扩充精调训练文档,补充完善实例教程至星河社区 🌟 P0 @ZJhorseloudly
@HangFu7
@hanlintang #10625
3 对齐文档 文档 扩充对齐训练文档,补充完善实例教程至星河社区 🌟 P0 @HangFu7
@hanlintang #10631
4 量化文档 文档 扩充量化文档,补充完善实例教程至星河社区 🌟 P1 @HangFu7
@hanlintang #10640

小模型Paddle 高扩展中间表示PIR适配

飞桨框架3.0 Beta 版本延续了2.x版本动静统一、训推一体的设计理念,其开发接口全面兼容2.x版本。这意味着,使用2.x版本开发的代码,在绝大多数情况下无需修改,即可直接在3.x版本上运行。其中高扩展中间表示PIR(Paddle Intermediate Representation)作为升级功能点之一,支撑着动转静、自动微分、自动并行、组合算子、图优化等多项技术,并广泛应用于分布式训练、模型压缩、推理部署等场景。通过PIR提供的DRR(Declarative Rewrite Rule)机制,Pass的开发成本可以降低60%。我们对超过900个模型配置进行了测试,结果显示,在使用PIR后,推理的整体性能提升了超过10%。但是当前小模型适配PIR的并没有全部验证修改,亟需开发者参与适配。

任务要求:修复特定模型或特定任务,完成PIR模型动转静验证,并在CI运行脚本(scripts/regression/ci_case.sh)增加对应的测试用例。
修改示范:

from paddlenlp.utils.env import PADDLE_INFERENCE_MODEL_SUFFIX, PADDLE_INFERENCE_WEIGHTS_SUFFIX

# static_model_name = "xxx.pdmodel"
static_model_name = f"xxx{PADDLE_INFERENCE_MODEL_SUFFIX}"
# static_model_path = "xxx.pdiparams"
static_model_path = f"xxx{PADDLE_INFERENCE_WEIGHTS_SUFFIX}"
NO 任务名称 任务类型 任务描述 难度 优先级 认领人/状态/PR号
5 slm/applications/neural_search 代码和文档 PIR适配 🌟 P2 @hanlintang #10352 #10399 #10398 #10397 #10396
6 slm/applications/text_classification 代码和文档 PIR适配 🌟 P2 @VVX94
@hanlintang #10497
7 slm/examples/information_extraction 代码和文档 PIR适配 🌟 P2 @VVX94
@Echo-Nie #10469
8 slm/examples/lexical_analysis 代码和文档 PIR适配 🌟 P2 @VVX94
@Echo-Nie #10470
9 slm/examples/machine_reading_comprehension 代码和文档 PIR适配 🌟 P2 @hanlintang #10445
10 slm/examples/machine_translation 代码和文档 PIR适配 🌟 P2 @hanlintang
11 slm/examples/model_compression/pp-minilm 代码和文档 PIR适配 🌟 P2 @hanlintang
12 slm/examples/question_generation/unimo-text 代码和文档 PIR适配 🌟 P2 @hanlintang
13 slm/examples/sentiment_analysis 代码和文档 PIR适配 🌟 P2 @hanlintang #10454
14 slm/examples/text_correction/ernie-csc 代码和文档 PIR适配 🌟 P2 @hanlintang
15 slm/examples/text_matching/ernie_matching 代码和文档 PIR适配 🌟 P2 @hanlintang #10453
16 slm/examples/text_summarization/unimo-text 代码和文档 PIR适配 🌟 P2 @hanlintang
17 slm/examples/text_to_knowledge/nptag 代码和文档 PIR适配 🌟 P2 @hanlintang
18 slm/model_zoo/bert 代码和文档 PIR适配 🌟 P2 @hanlintang #10422
19 slm/model_zoo/ernie-1.0 代码和文档 PIR适配 🌟 P2 @hanlintang #10426
20 slm/model_zoo/ernie-3.0 代码和文档 PIR适配 🌟 P2 @hanlintang #10475
21 slm/model_zoo/ernie-3.0-tiny 代码和文档 PIR适配 🌟 P2 @hanlintang #10480
22 slm/model_zoo/ernie-layout 代码和文档 PIR适配 🌟 P2 @hanlintang #10484
23 slm/model_zoo/ernie-vil2.0 代码和文档 PIR适配 🌟 P2 @Echo-Nie #10481
24 slm/model_zoo/gpt-3/ppfleetx/core/engine 代码和文档 PIR适配 🌟 P2 @Echo-Nie #10466
25 slm/model_zoo/uie 代码和文档 PIR适配 🌟 P2 @Echo-Nie #10482
26 slm/pipelines/pipelines/nodes/document 代码和文档 PIR适配 🌟 P2 @hanlintang #10394
27 llm/server/server/server/engine/infer.py 代码和文档 PIR适配 🌟 P2 @hanlintang #10379
28 tests/experimental/autonlp 代码和文档 PIR适配 🌟 P2 @hanlintang #10456
29 tests/test_tipc/bert_base_text_cls 代码和文档 PIR适配 🌟 P2 @hanlintang #10465
30 tests/test_tipc/bigru_crf 代码和文档 PIR适配 🌟 P2 @hanlintang #10465
31 tests/test_tipc/ernie_information_extraction 代码和文档 PIR适配 🌟 P2 @hanlintang #10465
32 tests/test_tipc/ernie_text_cls 代码和文档 PIR适配 🌟 P2 @hanlintang #10465
33 tests/test_tipc/ernie_text_matching 代码和文档 PIR适配 🌟 P2 @Echo-Nie #10460
34 tests/transformers/chatglm 代码和文档 PIR适配 🌟 P2 @hanlintang #10456
35 tests/transformers/test_generation_utils.py 代码和文档 PIR适配 🌟 P2 @hanlintang #10456

看板信息

任务方向 任务数量 提交作品 / 任务认领 提交率 完成 完成率
飞桨大语言模型快乐开源活动 35 29 / 35 82.86% 29 82.86%

统计信息

排名不分先后 @Echo-Nie (7) @hanlintang (22)

Metadata

Metadata

Labels

othersunknown issue type

Type

No type

Projects

Status

Done

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions