# kaggle **Repository Path**: chen_yigen/kaggle ## Basic Information - **Project Name**: kaggle - **Description**: Kaggle 项目实战(教程) = 文档 + 代码 + 视频(欢迎参与) - **Primary Language**: Unknown - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 6 - **Forks**: 3 - **Created**: 2020-04-23 - **Last Updated**: 2024-03-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Kaggle ![](static/images/logos/kaggle-logo-gray-bigger.jpeg) > **你已经抓住了石头,现在是挥舞它的时候了!** * [ApacheCN 组织资源](https://www.ibooker.org.cn/docs): * **ApacheCN - 比赛学习群【724187166】ApacheCN - 比赛学习群[724187166]** * [Kaggle](https://www.kaggle.com) 是一个流行的数据科学竞赛平台。 * [GitHub 入门操作指南](docs/GitHub/README.md) 和 [Kaggle 入门操作指南](docs/kaggle-quickstart.md),适合于学习过 [MachineLearning(机器学习实战)](https://github.com/apachecn/MachineLearning) 的小盆友 * Kaggle 已被 Google 收购,请参阅[《谷歌收购 Kaggle 为什么会震动三界(AI、机器学习、数据科学界)》](https://www.leiphone.com/news/201703/ZjpnddCoUDr3Eh8c.html) > Note: * 号外号外 [**kaggle组队开始啦**](docs/kaggle-start.md) * 比赛收集平台: * [关于 ApacheCN](http://cwiki.apachecn.org/pages/viewpage.action?pageId=2887240): 一边学习和整理,一边录制项目视频,希望能组建一个开源的公益团队对国内机器学习社区做一些贡献,同时也为装逼做准备!! ## 直播系列 * https://space.bilibili.com/97678687/channel/detail?cid=76173 > kaggle入门系列 * [【Kaggle 入门篇】B站视频讲解,跟我们一起来学习吧!](https://www.bilibili.com/video/av53119200) > 比赛直播系列 * [视频: 2019ICME 抖音视频理解 top2 solution 分享及 数据比赛入门讲解](https://www.bilibili.com/video/av57385532) * [文档: icme2019-top2.pptx](docs/B站直播资料/icme2019-top2.pptx) * [昊神GitHub地址: https://github.com/Smilexuhc](https://github.com/Smilexuhc) * [昊神整理比赛系列: https://github.com/Smilexuhc/Data-Competition-TopSolution](https://github.com/Smilexuhc/Data-Competition-TopSolution) ## [竞赛](https://www.kaggle.com/competitions) * 【推荐】特征工程全过程: https://www.cnblogs.com/jasonfreak/p/5448385.html > train loss 与 test loss 结果分析 * train loss 不断下降,test loss不断下降,说明网络仍在学习; * train loss 不断下降,test loss趋于不变,说明网络过拟合; * train loss 趋于不变,test loss不断下降,说明数据集100%有问题; * train loss 趋于不变,test loss趋于不变,说明学习遇到瓶颈,需要减小学习率或批量数目; * train loss 不断上升,test loss不断上升,说明网络结构设计不当,训练超参数设置不当,数据集经过清洗等问题。 ```python 机器学习比赛,奖金很高,业界承认分数。 现在我们已经准备好尝试 Kaggle 竞赛了,这些竞赛分成以下几个类别。 ``` ### [第1部分:课业比赛 InClass](https://www.kaggle.com/competitions?sortBy=deadne&group=all&page=1&pageSize=20&segment=inClass) `课业比赛 InClass` 是学校教授机器学习的老师留作业的地方,这里的竞赛有些会向public开放参赛,也有些仅仅是学校内部教学使用。 ### [第2部分:入门比赛 Getting Started](https://www.kaggle.com/competitions?sortBy=deadline&group=all&page=1&pageSize=20&segment=gettingStarted) `入门比赛 Getting Started` 给萌新们一个试水的机会,没有奖金,但有非常多的前辈经验可供学习。很久以前Kaggle这个栏目名称是101的时候,比赛题目还很多,但是现在只保留了9个最经典的入门竞赛:手写数字识别、沉船事故幸存估计、脸部识别、Julia语言入门。 * [**数字识别**](/competitions/getting-started/digit-recognizer) * [**泰坦尼克**](/competitions/getting-started/titanic) * [**房价预测**](/competitions/getting-started/house-price) * [**nlp-情感分析**](/competitions/getting-started/word2vec-nlp-tutorial) ### [第3部分:训练场 Playground](https://www.kaggle.com/competitions?sortBy=deadline&group=all&page=1&pageSize=20&segment=playground) `训练场 Playground`里的题目以有趣为主,比如猫狗照片分类的问题。现在这个分类下的题目不算多,但是热度很高。 * [**猫狗识别**](/competitions/playground/dogs-vs-cats) ### [第4部分: 研究项目(少奖金) Research](https://www.kaggle.com/competitions?sortBy=prize&group=active&page=1&pageSize=20&segment=research) `研究型 Research` 竞赛通常是机器学习前沿技术或者公益性质的题目。竞赛奖励可能是现金,也有一部分以会议邀请、发表论文的形式奖励。 ### [第5部分:人才征募 Recruitment](https://www.kaggle.com/competitions?sortBy=prize&group=active&page=1&pageSize=20&segment=recruitment) `人才征募 Recruitment` 竞赛是赞助企业寻求数据科学家、算法设计人才的渠道。只允许个人参赛,不接受团队报名。 ### [第6部分: 大型组织比赛(大奖金) Featured](https://www.kaggle.com/competitions?sortBy=prize&group=active&page=1&pageSize=20&segment=featured) `推荐比赛 Featured` 是瞄准商业问题带有奖金的公开竞赛。如果有幸赢得比赛,不但可以获得奖金,模型也可能会被竞赛赞助商应用到商业实践中呢。 * [**Mercari 价格推荐挑战**](/competitions/featured/mercari-price-suggestion-challenge) * [**Home Credit Default Risk**](/competitions/featured/home-credit-default-risk) ### [第7部分: 限量邀请赛 Masters(新)](https://www.kaggle.com/competitions?sortBy=grouped&group=general&page=1&pageSize=20&category=masters) `Masters(新)` 限量参与比赛(受邀) ### [第8部分: 多评估标准赛 Analytics(新)](https://www.kaggle.com/competitions?sortBy=grouped&group=general&page=1&pageSize=20&category=analytics) `Analytics(新)` 选择最优评估标准来排名的比赛 ### 天池 * [**天池入门教程: O2O优惠券-使用新人赛**](https://tianchi.aliyun.com/notebook/detail.html?spm=5176.11409386.4851167.7.65c91d07FiVHVN&id=4796) * [**天池第一名: O2O优惠券-预测用户领取优惠劵后是否核销**](https://github.com/wepe/O2O-Coupon-Usage-Forecast) ## 其他部分 * [数据集](https://www.kaggle.com/datasets): 数据集,可直接用于机器学习。 * [核心思想](https://www.kaggle.com/kernels): 在线编程。(猜测,基于 jupyter 实现) * [论坛](https://www.kaggle.com/discussion): 发帖回帖讨论的平台 * [**学习 - 新**](https://www.kaggle.com/learn/overview): 最新发布的学习教程 * [招聘](https://www.kaggle.com/jobs): 企业招聘数据科学家的位置 ## 解决方案列表 * [解决方案列表](docs/writeup-list.md) 如果解决方案太大,可以先放在这个列表中。以后再逐步整合到这个仓库。 ## 机器学习算法 > 常用算法选择 ![](static/images/docs/kaggle-常用算法选择.png) > 常用工具选择 ![](static/images/docs/kaggle-常用工具选择.png) > 解决问题的流程 1. 链接场景和目标 2. 链接评估准则 3. 认识数据 4. 数据预处理(清洗、调权) 5. 特征工程 6. 模型调参 7. 模型状态分析 8. 模型融合 > 数据预处理 * 数据清洗 * 去掉样本数据的异常数据。(比如连续型数据中的离群点) * 去除缺失大量特征的数据 * 数据采样 * 下/上采样(假设正负样本比例1:100,把正样本的数量重复100次,这就叫上采样,也就是把比例小的样本放大。下采样同理,把比例大的数据抽取一部分,从而使比例变得接近于1;1) * 保证样本均衡 * 工具 sql、pandas等 > 特征工程 ![](static/images/docs/kaggle-特征工程.png) > 特征处理 - 数值型:连续型数据离散化或者归一化、数据变化(log、指数、box-cox) - 类别型:做编码,eg:one-hot编码,如果类别数据有缺失,把缺失也作为一个类别即可。 - 时间类:间隔化(距离某个节日多少天)、与其他特征(eg:次数)融合,变成一周登陆几次、离散化(eg:外卖,把时间分为【饭店、非饭店】) - 文本类:N-gram、Bag-of-words、TF-IDF - 统计型:与业务强关联 - 组合特征 ## 贡献指南 > **欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远** 本项目接受大家提交 WriteUp(题解)。 WriteUp 需要带有预处理过程,从你能下载到的原始数据开始,并且带有验证过程和评价指标。 请放在`/competitions/{分类}/{名称}`目录下。 其中分类一共有六个,请见上面,名称是 URL 中`/c/`后面的部分。 ## 联系方式 > 项目负责人 * [@jiangzhonglian](https://github.com/jiangzhonglian)(片刻) > 项目发起人 * [@jiangzhonglian](https://github.com/jiangzhonglian)(片刻) * [@wangyangting](https://github.com/wangyangting)(那伊抹微笑) * [@chenyyx](https://github.com/chenyyx)(瑶妹) > 项目贡献者(请手动添加) * [@jiangzhonglian](https://github.com/jiangzhonglian)(片刻) * [@wangyangting](https://github.com/wangyangting)(那伊抹微笑) * [@chenyyx](https://github.com/chenyyx)(瑶妹) * [@zehuichen](https://github.com/zehuichen123)(loveSnowBest) * [@谈笑风生](https://github.com/zhu1040028623)(谈笑风生) * [@诺木人](https://github.com/1mrliu)(诺木人) * [@飞龙](https://github.com/wizardforcel) > 加入方式 有任何建议反馈, 或想参与文档翻译, 麻烦联系下面的企鹅 * 企鹅: 529815144(片刻) 1042658081(那伊抹微笑) 190442212(瑶妹) * **ApacheCN - 比赛学习群【724187166】ApacheCN - 比赛学习群[724187166]** * **Kaggle (数据科学竞赛平台) | [ApacheCN(apache中文网)](http://www.apachecn.org/)** 微信&支付宝 --- > 特别赞助商(欢迎“私聊”赞助)