设计机器学习应用系统设计机器学习应用系统
首页
讨论区
首页
讨论区
  • 目录
  • 前言

    • 关于作者
    • 关于本文档
  • 机器学习数学基础

    • 线性代数

      • 引言:机器学习的语言
      • 向量基础
      • 矩阵基础
      • 数据处理实践
    • 微积分

      • 引言:变化与累积
      • 极限、导数与微分
      • 多元函数与复合函数求导
      • 微积分计算实践
    • 统计与概率

      • 引言:概率性思维
      • 概率基础
      • 统计推断
      • 概率统计实践
  • 经典统计学习方法

    • 线性模型

      • 线性回归
      • 逻辑回归
      • 正则化与广义线性模型
    • 贝叶斯方法

      • 朴素贝叶斯
      • 贝叶斯网络
      • EM 算法
    • 支持向量机

      • 支持向量机
      • 核技巧
    • 决策树与集成

      • 决策树
      • 随机森林
      • 提升方法
    • 无监督学习

      • 聚类
      • 降维
  • 神经网络与深度学习

    • 神经网络结构

      • 神经网络基础原理
      • 线性感知机
      • 多层感知机
      • 前向传播
      • 反向传播
      • 激活函数与损失函数
    • 优化神经网络

      • 梯度下降
      • 自适应优化器
    • 深层网络稳定性

      • 权重初始化
      • Dropout 正则化
      • 批归一化
    • 卷积神经网络

      • CNN 基础原理
      • AlexNet 与 CNN 复兴
      • VGG 与 GoogLeNet
      • ResNet 残差网络
      • 工程实训:AlexNet 图像分类实验
    • 生成式模型

      • 变分自编码器
      • 生成式对抗网络
      • 工程实训:DCGAN 图像生成实验
    • 序列模型

      • 词嵌入与表示学习
      • RNN 基础原理
      • LSTM 与 GRU 门控机制
      • Seq2Seq 序列映射
      • 工程实训:LSTM 古诗词生成实验
  • 语言模型的奇点

    • Transformer 架构

      • Transformer 基础原理
      • Transformer 演进与变体
      • 语言模型与分词
      • 工程实训:Transformer 模型训练实验
    • 预训练与微调

      • 预训练数据工程
      • 缩放定律
    • 对齐训练

    • 推理能力

    • 前沿与融合

  • AI Infra & 应用(名字待定)

  • 机器学习经典论文

  • 附录

    • 构建沙箱环境
    • 临时格式测试页面
设计机器学习应用系统

设计机器学习应用系统

GitHub Repo starsGitHub followersGitHub forks
visitorsGitHub last commitGitHub Actions Workflow StatusNPM VersionLicenseAuthor

开始阅读文档目录构建沙箱

文档简介

这是一本讨论"如何将机器学习应用于生产系统"的文档,旨在为软件开发者在人工智能时代提供梳理知识框架的导航地图。从目的角度看,它与我的另一部文档《凤凰架构》是一样的。不过,这部文档的阅读门槛相对凤凰架构更高,建议开始前先阅读文章《关于设计机器学习应用系统》,了解文档的主旨与读者画像。

笔者出于以下目的,撰写这部文档:

  • 笔者是一名软件工程师,也是机器学习方向的 PhD。身处软件业正由"硬编码的逻辑"转向"数据驱动的智能"的时点,笔者希望借文档为引,系统性地整理机器学习相关知识,查缺补漏,将它们都融入自己的知识框架。
  • 笔者认为技术人员成长有一捷径,不仅要去看、去读、去想、去用,更要去说、去写。将自己认为掌握了的知识叙述出来,能够说得清晰有条理,讲得理直气壮;能够让他人听得明白,释去心中疑惑;能够把自己的观点交予别人的审视,乃至质疑,在此过程中,会挖掘出很多潜藏在"已知"背后的"未知"。未有知而不行者,知而不行,只是未知。

快速开始

  • 在线阅读:本文档在线阅读地址为 https://ai.icyfenix.cn 。 网站由 GitHub Pages 提供网站存储空间;由 GitHub Actions 提供的持续集成服务实时把 Git 仓库的 Markdown 文档编译同步至网站,并推送至 CDN 提供国内的访问加速;由 GitHub Discussions 与 Giscus 提供讨论服务。

  • 代码沙箱:本文档内包含大量可在网页中运行的代码实践,用于演示机器学习算法以及进行模型训练。对于第一部分数学基础和第二部分经典统计学习算法,只需纯 CPU 环境即可运行;对于深度学习及之后的内容,部分模型训练实验需要 GPU 支持(目前基于 PyTorch with CUDA 12.8)。更多详情请参见构建沙箱环境。

    npx @icyfenix-dmla/install@latest
    
  • 离线运行:

    • 部署离线站点:文档基于 VuePress 构建,如你希望在企业内部搭建文档站点,请使用如下命令:
    # 克隆获取源码
    git clone https://github.com/fenixsoft/dmla.git && cd dmla
    
    # 安装工程依赖
    npm install
    
    # 运行网站,文档地址默认为 http://localhost:8080,沙箱地址默认为 http://localhost:3001
    npm run local
    
    • 本地运行时,如需使用运行文档中的代码,仍然需要有 Docker 镜像的支持,镜像可使用前面沙箱一键安装直接拉取,也可以使用如下命令在本机构建:
    npm run build:sandbox:all
    
  • 二次演绎、传播和发行:本文档中所有的内容,如引用其他资料,均在文档中明确列出资料来源,一切权利归属原作者。除此以外的所有内容,包括但不限于文字、图片、表格,等等,均属笔者原创,这些原创内容,笔者声明以知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议(CC BY-NC-SA 4.0) 发行,只要遵循许可协议条款中署名、非商业性使用、相同方式共享的条件,你可以在任何地方、以任何形式、向任何人使用、修改、演绎、传播本文档中任何部分的内容。详细可见本文档的"协议"一节。

协议

  • 本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议(CC BY-NC-SA 4.0)许可。遵循许可的前提下,你可以自由地共享,包括在任何媒介上以任何形式复制、发行本作品,亦可以自由地演绎、修改、转换或以本作品为基础进行二次创作。但要求你:
    • 署名:应在使用本文档的全部或部分内容的时候,注明原作者及来源信息。
    • 非商业性使用:不得用于商业出版或其他任何带有商业性质的行为。如需商业性使用,请联系作者。
    • 相同方式共享的条件:在本文档基础上演绎、修改的作品,应当继续以知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议(CC BY-NC-SA 4.0)许可。

备案

网站备案信息:粤 ICP 备 18088957 号

Last Updated:
Contributors: icyfenix, Claude Opus 4.7, Claude Opus 4.6