-
Notifications
You must be signed in to change notification settings - Fork 13
Open
Description
根据“开源生态分析挖掘任务 - 数据科学系列课程规划”的内容,以及目前的内容体系与分工,给出如下建议:
1、仓库名称
简单来说就是用“开源生态数据分析”中的各种任务作为《数据科学与工程导论》课程中的各个单元的实验;另一方面,前面我们也设计过一个面向教师的开源案例教学赛,如下图所示。
因此,不妨也做个文字游戏,例如:OpenTEA101,即面向数据科学与工程导论课程的开源生态数据分析实训案例(Open Source Ecological Data Analysis Cases for Teaching)。
2、实训案例内容
这个可以直接按照“开源生态分析挖掘任务 - 数据科学系列课程规划”中的框架进行列举。
2.1 问题定义 (@bifenglin )
- 知识点:Git 知识、GitHub 知识、GitHub 行为数据结构、开源生态知识
- 参考资料:oss101 课程
2.2 数据收集(@andyhuang18)
- 知识点:Python 脚本收集、API 收集、数据生成
- Python 脚本收集参考:dbdbio_OSDB_info_crawling、db_engines_ranking_table_crawling
- API 收集参考1:《社交网站的数据挖掘与分析》第 8 章
- API 收集参考2:Stack Overflow 数据采集
- 数据生成:待定
2.3 数据预处理(@wj23027)
- 知识点:数据清洗(数据质量:缺失值处理、异常处理、重复数据、数据结构、格式转化)、数据合并、数据集成、数据规约、数据变换、综合实践
- 参考资料:《数据科学导论》第 4 章
2.4 数据探索(@wj23027)
- 知识点:统计探索、可视化探索、SQL 探索
- 统计探索参考:《数据科学与工程导论》第 9、10 章
- 可视化探索参考:OpenDigger 中的各种 Notebook 实例
- SQL 探索参考:Everything You Always Wanted To Know About GitHub,OpenDigger Demo
2.5 特征工程(@andyhuang18)
- 知识点:特征选择、创建衍生特征、特征降维
- 参考资料:《巧用ChatGPT快速搞定数据分析》第 4 章
2.6 数据建模 + 结果评估(请 @lhbvvvvv @Zzzzzhuzhiwei 分工)
- 回归分析建模:线性回归、多项式回归、岭回归;参考《数据科学导论》5.3 节、《巧用ChatGPT快速搞定数据分析》6.1 节
- 预测分析建模:神经网络预测模型、决策树和随机森林;参考《巧用ChatGPT快速搞定数据分析》6.2 节
- 分类分析建模:评论情感分类、KNN 分类、Bayes 分类、SVN 分类;参考《数据科学导论》5.4 节、《巧用ChatGPT快速搞定数据分析》7.1 节
- 聚类分析:K-Means 聚类、层次聚类;参考《数据科学导论》5.5 节、《巧用ChatGPT快速搞定数据分析》7.2 节
- 深度学习分析:CNN分类、 LSTM预测;参考《巧用ChatGPT快速搞定数据分析》8.1 节
其中,“2.6 数据建模 + 结果评估”中,还需要根据不同的技术选取恰当的任务和场景,例如:
- 回归分析建模:例如 GitHub 仓库数、GitHub 开发者数量等的回归拟合
- 预测分析建模:例如 Activity、OpenRank 预测问题
- 分类分析建模:例如机器人分类、Issue 评论情感分类、仓库技术类型分类
- 聚类分析:例如开源社区聚类、OpenGalaxy
- 深度学习分析:待定
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels
