• 课程安排  

     

    本次课程共23天,基于R语言,系统讲解机器学习常用算法,及其在生物和医学领域的应用。

    直播期间每晚答疑,直播结束后答疑3个月。视频课程有效期内可无限回放。

    第一天 机器学习概念

    1. 机器学习概念
    2. 机器学习实例
    3. 机器学习分类
    4. 数据预处理/实操

    第二天 模型构建及特征筛选

    1. 课程准备/安装需要的包
    2. 数据拆分
    3. 在R中创建模型
    4. 重采样方法
    5. 偏差方差权衡
    6. 模型评估
    7. 整合流程

    第三天 模型数据的转换

    1. 数据转换

    2. 处理缺失值

    3. 特征过滤

    4. 数据特征工程

    5. 分类特征工程

    6. 降维

    7. 应用实操

    第四天 线性回归

    1. 线性回归的定义

    2. 简单线性模型

    3. 多元线性模型

    4. 评估模型精度

    5. 模型问题

    6. 主成分分析

    7. 偏最小二乘法

    8. 特征解释

    9. 线性回归在生物医学中的应用案例实操:文献1~3

    第五天 逻辑回归

    1. 逻辑回归的定义
    2. 为什么要使用逻辑回归
    3. 简单逻辑回归
    4. 多元逻辑回归
    5. 评估模型精度
    6. 特征解释
    7. 逻辑回归在生物医学中的应用实操:文献4~5

    第六天 正则化回归

    1. 定义以及为什么要做正则化回归

    2. 实操

    3. 调整参数

    4. 特征解释

    5. 数据损耗问题

    第七天 多元自适应回归分析

    1. 模型基本思想

    2. 构建模型

    3. 调参

    4. 特征解释

    5. 数据损耗问题

    6. MRAS在生物医学中的应用实操:文献6

    第八天 K近邻算法

    1. 模型思想

    2. 评估与最近相邻的相似性

    3. 选择K

    4. 实例及实操

    5. K近邻在生物医学的应用实操:文献7、8

     

    第九天 决策树

    1. 决策树结构

    2. 数据分割

    3. 决策树节点

    4. 实例及实操

    5. 特征解释

    6. 决策树在生物医学的应用实操:

    基于患者的骨盆和形状位置特征甄别病人并进行分类

    第十天 装袋

    1. 为什么及什么时候使用该模型

    2. 实操

    3. 并行操作

    4. 特征解释

    第十一天 随机森林

    1. 装袋延伸

    2. 模型的效能

    3. 超参数调整

    4. 调整策略

    5. 参数解释

    6. 经典实例:随机森林在iris的分类及可视化

    7. 随机森林在生物医学的应用:文献9

    第十二天 梯度增压

    1. 模型工作原理

    2. GBM基本思想

    3. 随机GBM

    4. XGBoost

    5. 特征解释

    第十三天 深度学习

    1. 深度学习概念

    2. 为什么要进行深度学习

    3. 前馈DNNs

    4. 网络架构

    5. 激活功能

    6. 反向传播功能

    7. 模型训练

    8. 参数调整

    9. 网格搜索

    10. 深度学习在生物医学的应用实操:文献10

    第十四天 支持向量机

    1. 为什么要使用支持向量机

    2. 最优分离超平面

    3. 支持向量机

    4. 实例

    5. 特征解释

    6. 深度学习在生物医学的应用:文献3

    第十五天 堆叠模型

    1. 模型基本思想

    2. 堆叠现有模型

    3. 堆叠网格搜索

    4. 自动化机器学习

    第十六天 可解释的机器学习

    1. 模型基本思想

    2. 基于排列的特征重要性

    3. PDP

    4. ICE

    5. 特征交互

    6. LIME

    7. Shapley values

    第十七天 降维之主成分分析

    1. 模型基本思想
    2. 寻找主成分
    3. 执行PCA
    4. 寻找主成分的数量
    5. 降维在生物医学的应用:文献11

    第十八天 广义低秩模型与自编码器

    1. 模型基本思想

    2. 寻找较低的秩

    3. 拟合GLRM

    4. 欠完备的自编码器

    5. 稀疏自动编码器

    6. 去噪自动编码器

    7. 异常监测

    第十九天 K-means 聚类

    1. 距离测量

    2. 定义集群

    3. K均值聚类

    4. 执行聚类

    5. 有多少簇?

    6. 混合数据聚类

    7. 可选的区分方法

    8. K-means在生物医学的应用:文献12、13

    第二十天 层次聚类

    1. 层次聚类算法

    2. 在R中执行层次聚类

    3. 确定最佳集群

    4. 使用树状图

    5. 层次聚类在生物医学的应用:文献14

    第二十一天 基于模型的聚类

    1. 衡量概率及不确定性

    2. 协方差类型

    3. 模型选择

    4. 实例及实操

    5. 总结及代码分析

    第二十二、二十三天 文章复现

    1. 一篇动植物文章复现

    2. 一篇医学文章复现

    3. 一篇纯机器学习文章复现

  • 参考文献
    [1] A Regional Maize Yield Hierarchical Linear Model Combining Landsat 8 Vegetative Indices and Meteorological Data: Case Study in Jilin Province
    [2] The association of prepartum urine pH, plasma total calcium concentration at calving and postpartum diseases in Holstein dairy cattle
    [3] UCseek: ultrasensitive early detection and recurrence monitoring of urothelial carcinoma by shallow-depth genome-wide bisulfite sequencing of urinary sediment DNA
    [4] Predicting hyperketonemia by logistic and linear regression using test-day milk and performance variables in early-lactation Holstein and Jersey cows
    [5] A population-based phenome-wide association study of cardiac and aortic structure and function
    [6] Understanding transcriptional regulation by integrative analysis of transcription factor binding data

    [7] Inverse method using boosted regression tree and k-nearest neighbor to quantify effects of point and non-point source nitrate pollution in groundwater

    [8] Using k-NN to analyse images of diverse germination phenotypes and detect single seed germination in Miscanthus sinensis
    [9] A widespread length dependent splicing dysregulation in cancer
    [10] DISMIR: Deep learning-based noninvasive cancer detection by integrating DNA sequence and methylation information of individual cell-free DNA reads
    [11] Single-cell atlases link macrophages and CD8+ T-cell subpopulations to disease progression and immunotherapy response in urothelial carcinoma

    [12] Emerging Applications of Machine Learning in Food Safety

    [13] Immunophenotyping of COVID-19 and influenza highlights the role of type I interferons in development of severe COVID-19
    [14] WGCNA: an R package for weighted correlation network analysis
  • 讲师介绍

    十年以上经验生物信息工程师授课 

    基因课介绍

    成立于 2017年7月,专注于生物信息学培训。

    基因课网校:已完成30余门视频课程的开发,累计学员 20000 余人。

    主讲老师 小王老师

    本科毕业于华中农业大学生物信息学专业,博士就读于中国科学院国家生物信息中心;

    擅长利用R等语言对生物中的问题进行解构并对其规律进行解析,熟练使用机器学习的常用算法。

  • 立即报名!

    全面、系统的学习生物信息

    本期课程

     

    团购 ¥4400.00

    单买 ¥4900.00

    本期课程

    本期课程直播+视频回放

    3个月腾讯会议答疑

    赠送:

    分析流程、教材

    服务器练习账号

    《22天入门生物信息》

    推荐

    超级会员

    可学习基因课线上线下全部课程

    ¥10900.00

    每年

    基因课课程全部开放

    会员专享免预约腾讯会议答疑

    包含:

    《基因组与比较基因组专题课程》

    《重测序与群体遗传专题课程》

    《转录组与表达挖掘专题课程》

    《ChIP-Seq数据分析专题课程》

    《单细胞转录组分析专题课程》

    《生物信息平台搭建专题课程》

    《R语言与出版级绘图专题课程》

    《叶绿体、线粒体专题课程》

    《细菌真菌基因组专题培训班》

    《长非编码RNA与表达调控专题》

    《 蛋白质组学专题培训》

    《代谢组与脂质组学》

    《甲基化测序数据分析》

    《生物信息入门之 Linux》

    《生物信息入门之 R》

    《生物信息入门之 Python》等

    以及未来一年即将上线的约10门大课

    赠送:

    全套分析流程、教材

    服务器练习账号

  • 常见问题

    1. 如何咨询?

    • 客服:15337132798(微信同号)
    • 张老师:18617043002(微信同号)

    2. 在哪里学习?

    • PC 端:www.genek.cn 点视频课;

    • 微信端:"基因课" 公众号-视频课-学习地址-移动端;

    • 课程有效期内可以不限次回放。

    3. 我是零基础,能学会吗?

    1. 本次机器学习基于R语言,会赠送生物信息入门课程(里面包含R语言入门,1-2天即可掌握)。

    2. 相比线下培训,线上培训给了学员充足的时间练习,配合答疑,完全可以掌握。

    4. 没时间参加直播怎么办?

    1. 当天直播结束后10分钟左右,回放会自动生成。

    2. 课程期间每天课前或课后都会安排腾讯会议答疑;课程结束后3个月内,每周一到周四都会安排腾讯会议答疑。

    3. 视频回放结合持续的答疑,可以实现和看直播相当的效果。

    5. 电脑配置有什么要求?

    1. 无特殊要求。建议内存8G以上,19年之后购买的电脑;

    2. 我们还免费赠送了服务器账号,如个人电脑配置不够,可使用赠送的服务器联系。

    6. 如何报名?

    推荐直接线上购买,如需对公转账,请联系我们。

    --------------------------------------

    银行对公转账
    户名:武汉简并科技有限公司
    开户银行:汉口银行股份有限公司光谷分行
    账 号:005041000451905

    开户行行号:313521000982

    转账备注“单位-姓名”。

    7. 关于合同、发票、培训通知

    • 通知:可提供培训通知、会议通知
    • 发票:可开培训费、会议费、技术服务费等,其他请联系客服
    • 合同:可提供合同、清单等