https://blog.csdn.net/weixin_45655710?type=blog
@浙大疏锦行
DAY 22 复习日
复习日
仔细回顾一下之前21天的内容,没跟上进度的同学补一下进度。
作业:
自行学习参考如何使用 kaggle平台,写下使用注意点,并对下述比赛提交代码
您好!这是一个很好的复习和拓展学习的机会。
🎯 Kaggle 平台使用指南及注意事项
Kaggle 是全球最大的数据科学和机器学习社区,它不仅是一个竞赛平台,更是一个强大的学习和协作生态系统。
一、Kaggle 的核心板块与使用方式
Kaggle 平台主要由四个核心板块构成:
| 板块 | 核心内容 | 主要作用 |
|---|---|---|
| Competitions (竞赛) | 解决真实世界问题的挑战,通常提供数据、评估指标和奖金。 | 实践应用:在时限内解决复杂问题,应用和测试您的模型。 |
| Datasets (数据集) | 丰富的公开数据集,涵盖各种领域(CSV, JSON 等)。 | 数据探索与练习:查找高质量数据进行练习、可视化或构建项目。 |
| Code / Notebooks (代码/内核) | 用户分享的代码、教程和分析报告(基于 Jupyter/R Markdown)。 | 学习与借鉴:学习他人解决问题的方法、数据清洗技巧和模型构建流程。 |
| Discussion (论坛) | 社区成员交流、提问和讨论竞赛或技术的场所。 | 社区交流:提问、回答、讨论算法和数据科学趋势。 |
二、使用 Kaggle 的关键步骤和建议
1. 竞赛参与流程
| 步骤 | 行动 | 注意事项 |
|---|---|---|
| 1. 注册/加入 | 注册账号,加入您感兴趣的竞赛。 | 仔细阅读**“Rules”(规则)和“Data”**(数据)页面,了解评估指标(Metric)。 |
| 2. 初步探索 | 在Code/Notebooks中搜索其他用户分享的**“EDA”**(探索性数据分析)Notebook,快速了解数据。 | 不要直接复制别人的代码,要理解其思路并尝试改进。 |
| 3. 模型构建 | 在本地或 Kaggle Notebook 中进行特征工程和模型训练。 | 经常提交(Submission)以获取即时反馈,但要注意公共排行榜(Public Leaderboard)可能会过拟合。 |
| 4. 最终提交 | 在竞赛结束前选择2 22个最佳的提交作为最终得分。 | 最终得分由私有排行榜(Private Leaderboard)决定,与公共榜单可能有较大差异。 |
2. 在 Notebooks 中学习 (推荐)
Kaggle Notebooks 是您学习和练习的最佳场所。
- 新手起步:从经典的 [Titanic: Machine Learning from Disaster] 或 [House Prices: Advanced Regression Techniques] 等入门级竞赛入手。
- 筛选优质内容:在 Notebooks 页面,按“Hot”(热门)或“Highest Score”(最高分)筛选,优先学习高赞或高分的代码。
- 善用 GPU/TPU:Kaggle Notebooks 提供免费的 GPU/TPU 资源,可以用来训练大型模型(如深度学习),但要注意使用时长限制。
三、Kaggle 使用的五大注意事项
| 序号 | 注意点 | 详细说明 |
|---|---|---|
| 1 | 作弊与团队协作 | 禁止在同一竞赛中拥有多个账号。如果参加团队赛,必须遵守团队成员人数限制和代码分享规则。 |
| 2 | 关注 Private LB | 不要过度信任 Public Leaderboard。许多参赛者为了冲高公共榜单分数而牺牲泛化能力。最终决定您奖金和排名的都是 Private Leaderboard。 |
| 3 | 数据泄露 (Leakage) | 严格区分训练数据和测试数据。任何在模型训练阶段使用了测试集信息的行为都可能导致数据泄露,从而得到虚高的分数。 |
| 4 | 外部数据使用 | 必须严格遵守竞赛规则中关于外部数据的规定。有些竞赛允许使用,有些则禁止。如果允许,必须在论坛中声明使用的外部数据源。 |
| 5 | 资源限制 | 注意 Notebooks 的运行时长限制(通常12 1212小时)、GPU/TPU 配额(通常每周有限额)以及文件输出大小限制。 |
Day 21 复习回顾:降维算法
在您复习第21 2121天的降维算法时,请重点回顾PCA和t-SNE的核心区别和适用场景。
- PCA (主成分分析):线性降维,追求最大方差,适用于全局结构保留和特征工程。
- t-SNE (t-分布随机邻域嵌入):非线性降维,追求局部相似性,适用于数据可视化和发现聚类结构。