Qwen系列模型笔记 发表于 2025-12-19 更新于 2025-12-24 分类于 大模型 Qwen 论文:Qwen Technical Report Qwen:使用了3T token, 数据包含多样化各个领域的文本和代码。 阅读全文 »
混合专家模型笔记 发表于 2025-12-16 更新于 2025-12-24 分类于 大模型 论文: Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 代码:https://github.com/jingyaogong/minimind/blob/master/model/model_minimind.py 阅读全文 »
Transformer系列模型笔记 发表于 2025-12-13 更新于 2025-12-21 分类于 深度学习 Transformer 总体架构 论文:Attention Is All You Need 代码:harvardnlp/annotated-transformer 阅读全文 »
轻量级Git服务Gogs搭建教程 发表于 2019-12-30 更新于 2025-12-13 分类于 服务器配置 前言 Gogs是一个类似于Gitlab的开源Git服务,它具有易安装、跨平台、轻量级等特点。相比于Gitlab它的资源占有率极低,对于个人开发者或者小型团队是非常实用的一款Git服务。 阅读全文 »
Pyinstaller打包Python程序攻略 发表于 2019-08-25 更新于 2025-12-13 分类于 python PyInstaller基本使用方法 下面列举几个常见的可选参数: pyinstaller [options] my_script.py[options]: -h 显示帮助并退出 -D 生成一个文件夹,其中包含一个可执行文件(默认) -F 生成单个可执行文件 -w 生成一个无命令行界面的程序 -i file.ico 指定图标 --add-data SRC;DEST 在程序中用到的其他(非二进制)文件,不建议用 --hidden-import MODULENAME 在程序中隐式导入的库,可多次使用 --exclude-module MODULENAME 不希望导入的库,可多次使用 更详细的使用方法可以参看官方手册,本文不再赘述。 阅读全文 »
Mask矩阵在深度学习中的应用 发表于 2019-08-01 更新于 2025-12-13 分类于 深度学习 , NLP 定义 mask矩阵是一个由0和1组成的矩阵。在NLP中,一个常见的问题是输入序列长度不等,而mask可以帮助我们处理。虽然RNN等模型可以处理不定长的输入,但是在实践中,需要对输入中长度较短的句子进行填充,即在句尾填充0占位,转换成固定大小的tensor,方便矩阵操作。 阅读全文 »