EduChat 学习总结

Github地址

目前可成功运行 sft-baichuan 模型。 可按以下步骤操作:

0. 下载模型的通用配置

直接使用镜像网站 https://hf-mirror.com/ 所提方法二:huggingface-cli

使用训练好的模型

百川 baichuan 模型 13B

https://github.com/sndnyang/LearnIsFun/blob/master/educhat/educhat-baichuan.md

通义千问 Qwen 模型 1.8B

https://github.com/sndnyang/LearnIsFun/blob/master/educhat/educhat-qwen.md

(应该无错)支持在 Colab 一键运行

LLama (待学习)

原始权重 处理, 新手没搞过, 加上应用优先用中文的~ 不一定会再试了。

训练

待学习

TODO

  • 转chat, 也就是像说话一样慢慢出字, 而不是全部完成后再显示

  • 学习训练LLM, 使用所提供数据集进行训练

  • 量化(学习)

  • 接入 ollama

  • 想想怎么评估

更新记录

  • 20240602
    解决 百川和千问两个模型transformers版本要求不一致问题 解决 educhat_gradio 对 千问模型的支持问题——就是把那一堆special tokens删了就行了
  • 20240601
    成功运行 educhat-sft-002-13b-baichuan
    成功运行 gradio demo
    晚上成功运行 qwen 1.8B 模型
    花费 一天百度超级会员 2.65, 拼多多 晓黑板官方旗舰店, 下载 5个9G多文件
  • 202405
    不成功的运行
    尤其是 LLama版, 原始权重、解密初次听说, 暂无从下手, 输出代码——issue区 有人解码后也是乱码。



    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • Ollama使用遇到的问题
  • GPU租用平台及使用介绍
  • 独显用于深度学习运算,核显用于屏幕显示
  • 课程大纲与工作技能评分论文与数据
  • 自然语言学习简要路径