Skip to content

关于本仓库名称与实验手册内容的建议 #1

@will-ww

Description

@will-ww

根据“开源生态分析挖掘任务 - 数据科学系列课程规划”的内容,以及目前的内容体系与分工,给出如下建议:

1、仓库名称

简单来说就是用“开源生态数据分析”中的各种任务作为《数据科学与工程导论》课程中的各个单元的实验;另一方面,前面我们也设计过一个面向教师的开源案例教学赛,如下图所示。

因此,不妨也做个文字游戏,例如:OpenTEA101,即面向数据科学与工程导论课程的开源生态数据分析实训案例(Open Source Ecological Data Analysis Cases for Teaching)。

2、实训案例内容

这个可以直接按照“开源生态分析挖掘任务 - 数据科学系列课程规划”中的框架进行列举。

2.1 问题定义@bifenglin

  • 知识点:Git 知识、GitHub 知识、GitHub 行为数据结构、开源生态知识
  • 参考资料:oss101 课程

2.2 数据收集@andyhuang18

2.3 数据预处理@wj23027

  • 知识点:数据清洗(数据质量:缺失值处理、异常处理、重复数据、数据结构、格式转化)、数据合并、数据集成、数据规约、数据变换、综合实践
  • 参考资料:《数据科学导论》第 4 章

2.4 数据探索@wj23027

2.5 特征工程@andyhuang18

2.6 数据建模 + 结果评估(请 @lhbvvvvv @Zzzzzhuzhiwei 分工)

  • 回归分析建模:线性回归、多项式回归、岭回归;参考《数据科学导论》5.3 节、《巧用ChatGPT快速搞定数据分析》6.1 节
  • 预测分析建模:神经网络预测模型、决策树和随机森林;参考《巧用ChatGPT快速搞定数据分析》6.2 节
  • 分类分析建模:评论情感分类、KNN 分类、Bayes 分类、SVN 分类;参考《数据科学导论》5.4 节、《巧用ChatGPT快速搞定数据分析》7.1 节
  • 聚类分析:K-Means 聚类、层次聚类;参考《数据科学导论》5.5 节、《巧用ChatGPT快速搞定数据分析》7.2 节
  • 深度学习分析:CNN分类、 LSTM预测;参考《巧用ChatGPT快速搞定数据分析》8.1 节

其中,“2.6 数据建模 + 结果评估”中,还需要根据不同的技术选取恰当的任务和场景,例如:

  • 回归分析建模:例如 GitHub 仓库数、GitHub 开发者数量等的回归拟合
  • 预测分析建模:例如 Activity、OpenRank 预测问题
  • 分类分析建模:例如机器人分类、Issue 评论情感分类、仓库技术类型分类
  • 聚类分析:例如开源社区聚类、OpenGalaxy
  • 深度学习分析:待定

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions