├── README.md └── 三次算法比赛.md /README.md: -------------------------------------------------------------------------------- 1 | # My Data Competition 2 | 3 | * 这是我从开始参加数据科学竞赛以来所有的比赛记录,我会在比赛初期开源部分赛题的Baseline, 比赛结束后视赛题要求决定是否开源我或者我们团队的复赛方案及源代码,既是分享,也是记录 4 | 5 | ## 近期比赛 6 | 7 | 8 | ## 参加的比赛 9 | | Name | Time | Data_Type | Repository | Comp_Type | Ranking online | 10 | | -------------------------- | ---------------- | --------- | --------------------------------------------------- | ------- | ------- | 11 | | Kaggle AMP®-Parkinson's Disease Progression Prediction| 2023.03 - 2023.05 | Structure | [Private]() | Prizes | 8 / 1805 🥇| 12 | | Stable Diffusion - Image to Prompts | 2023.03 - 2023.05 | Image | [Private]() | Prizes | 79 / 1231 🥉| 13 | | Imagine Computing 边缘云内容分发| 2022.11 - 2023.1 | Structure | [Private]() | Prizes | 1 / 3493 | 14 | | 绿色计算大赛 | 2022.11 - 2022.11 | Structure | [Private]() | Prizes | 1 / 2153 | 15 | | CCF BDCI 小样本数据分类任务 | 2022.9 - 2022.10 | NLP | [Private]() | Prizes | NA | 16 | | CCF BDCI Web攻击检测与分类识别 | 2022.9 - 2022.10 | Structure | [Private]() | Prizes | 1 / 584| 17 | | CCF BDCI 系统访问风险识别 | 2022.9 - 2022.10 | Structure | [Private]() | Prizes | 4 / 1557| 18 | | CCF BDCI 返乡发展人群预测 | 2022.9 - 2022.10 | Structure | [Baseline](https://github.com/librauee/CCF2022/blob/main/FX/FX_baseline.py) | Prizes | 5 / 2896| 19 | | 人岗匹配挑战赛 | 2022.8 - 2022.9 | Structure | [Private]() | Prizes | 1 / 542 | 20 | | 创意视角下的数字广告CTR预估挑战赛 | 2022.7 - 2022.8 | Structure | [Public](https://github.com/librauee/XF2022) | Prizes | 3 / 593| 21 | | 基于多模态信息的音视频语音唤醒挑战赛 | 2022.7 - 2022.8 | Audio | [Private]() | Prizes | 4 / 170| 22 | | 应用类型识别挑战赛 | 2022.7 - 2022.8 | NLP | [Baseline](https://github.com/librauee/XF2022/blob/main/%E5%BA%94%E7%94%A8%E7%B1%BB%E5%9E%8B%E8%AF%86%E5%88%AB%E6%8C%91%E6%88%98%E8%B5%9B/xf_yy_baseline_735.ipynb) | Prizes | NA | 23 | | 中文语义病句识别挑战赛 | 2022.7 - 2022.8 | NLP | [Baseline](https://github.com/librauee/XF2022/blob/main/%E4%B8%AD%E6%96%87%E8%AF%AD%E4%B9%89%E7%97%85%E5%8F%A5%E8%AF%86%E5%88%AB%E6%8C%91%E6%88%98%E8%B5%9B/xf_bj_baseline.ipynb) | Prizes | 3 / 471 | 24 | | 机动车车牌识别挑战赛 | 2022.8 - 2022.8 | Image | [Private]() | Prizes | 2 / 342| 25 | | 新冠肺炎声音诊断挑战赛2.0 | 2022.8 - 2022.8 | Audio | [Private]() | Prizes | 3 / 92 | 26 | | 糖尿病遗传风险检测挑战赛 | 2022.8 - 2022.8 | Structure | [Private]() | Prizes | 10 / 2639 | 27 | | 辣椒病虫害图像识别挑战赛 | 2022.7 - 2022.7 | Image | [Private]() | Prizes | 5 / 457| 28 | | 2022搜狐校园算法大赛 | 2022.4 - 2022.5 | NLP | [Private]() | Prizes | 4 / 1392 | 29 | | 2022“马栏山杯”国际音视频算法大赛 | 2022.4 - 2022.6 | Audio | [Private]() | Prizes | 3 / 225 | 30 | | 发债企业的违约风险预警 | 2022.4 - 2022.5 | Structure | [Private]() | Prizes | 3 / 713 | 31 | | 2022FinTech精英训练营 | 2022.4 - 2022.5 | Structure | [Public](https://github.com/librauee/ZSYH2022) | Prizes | 26 / UK | 32 | | 2022腾讯游戏安全技术竞赛 | 2022.4 - 2022.4 | Structure | [Public](https://github.com/librauee/gslab2022) | Prizes | UK | 33 | | Kaggle Happywhale | 2022.2 - 2022.4 | Image | [Private]() | Prizes | 3 / 1613 🥇| 34 | | Kaggle Feedback Prize | 2022.2 - 2022.3 | NLP | [Private]() | Prizes | 94 / 2058 🥈 | 35 | | DCIC数字医疗赛道 | 2022.2 - 2022.3 | Structure | [Private]() | Prizes | 6 / 485 | 36 | | DCIC交易验证码识别 | 2022.2 - 2022.3 | Image | [Public](https://github.com/librauee/DCIC-OCR) | Prizes | 6 / 826 | 37 | | 山东赛 | 2021.12 - 2022.1 | Signal | [Public](https://github.com/librauee/SD_ECG) | Prizes | 2 / 298| 38 | | Kaggle Pawpularity Contest | 2021.12 - 2022.1 | Image | [Private]() | Prizes | 201 / 3537 🥉 | 39 | | 心电图智能诊断竞赛 | 2021.11 - 2021.12 | Signal | [Baseline](https://github.com/librauee/ECG) | Prizes | NA | 40 | | CCF BDCI 系统认证风险预测 | 2021.10 - 2021.11 | Structure | [Public](https://github.com/zui0711/Z-Lab/tree/main/2021%20CCF%20BDCI/%E7%B3%BB%E7%BB%9F%E8%AE%A4%E8%AF%81%E9%A3%8E%E9%99%A9%E9%A2%84%E6%B5%8BRank1) | Prizes | 1 / 1085| 41 | | ATEC科技精英赛 | 2021.10 - 2021.11 | Structure | [Private]() | Prizes | 1 / UK| 42 | | 字节跳动安全AI挑战赛 | 2021.9 - 2021.11 | Structure | [Public](https://github.com/librauee/ByteDanceAI) | Prizes | 6 / 500+ | 43 | | 神州信息极客大赛 | 2021.9 - 2021.11 | Structure | [Private](https://github.com/librauee/ShenZhou) | Prizes | 1 / UK | 44 | | 全球算法精英大赛 | 2021.6 - 2021.10 | Structure | [Public](https://github.com/librauee/DIGIX2021/tree/master) | Prizes | 2 / 3600| 45 | | 科大讯飞AI开发者大赛 | 2021.6 - 2021.10 | Structure | [Baseline](https://github.com/librauee/IFLY) | Prizes | NA | 46 | | 三一数据应用创新大赛 | 2021.5 - 2021.6 | Structure | [Baseline](https://github.com/librauee/WJJ) | Prizes | NA | 47 | | 微信大数据挑战赛 | 2021.5 - 2021.6 | Structure | [Public](https://github.com/librauee/WBDC) | Prizes | 23 / 6768 | 48 | | 腾讯广告算法大赛 | 2021.5 - 2021.7 | multi-modal | [Private]() | Prizes | 6 / UK | 49 | | 2021FinTech精英训练营 | 2021.7 - 2021.7 | Structure | [Private]() | Prizes | 3 / 12| 50 | | 2021FinTech精英训练营-初赛 | 2021.4 - 2021.5 | Structure | [Public](https://github.com/librauee/ZSYH) | Prizes | 24 / UK | 51 | | 安泰杯 | 2021.4 - 2021.5 | Structure | [Private]() | Prizes | 5 / 322 | 52 | | 保险数字挑战赛 | 2021.4 - 2021.6 | Structure | [Private]() | Prizes | NA | 53 | | 中兴捧月 | 2021.4 - 2021.5 | Structure | [Private]() | Prizes | 4 / UK | 54 | | 腾讯游戏安全技术竞赛 | 2021.4 - 2021.4 | Structure | [Public](https://github.com/librauee/gslab2021) | Prizes | 4 / UK| 55 | | DCIC智慧交通 | 2021.3 - 2021.4 | Structure | [Private]() | Prizes | 9 / 1367| 56 | | “梧桐杯”中国移动大数据应用创新大赛 | 2021.1 - 2021.3 | Structure | [Baseline](https://github.com/librauee/Wutong/tree/master) | Prizes | 7 / 475 | 57 | | 银联商务智慧支付挑战赛 | 2021.1 - 2021.3 | Structure | [Public](https://github.com/librauee/YLSW) | Prizes | 2 / UK| 58 | | 基于AI的信道信息反馈性能提升 | 2021.1 - 2021.3 | Structure | [Baseline]() | Prizes | 13 / 1175 | 59 | | Kaggle Cassava Leaf Disease Classification | 2021.1 - 2021.2 | Image | [Public](https://github.com/librauee/cassava/tree/master) | Prizes | 53 / 3900 🥈| 60 | | 租金预测 | 2020.12 - 2020.12 | Structure | [Topline](https://github.com/librauee/PracticeCompetition/tree/master/rental_predict) | Practice | 2 / 634 | 61 | | 客户流失判断 | 2020.12 - 2020.12 | Structure | [Topline](https://github.com/librauee/PracticeCompetition/tree/master/customer_churn_judgement) | Practice | 1 / 230 | 62 | | 识别失信企业 | 2020.12 - 2020.12 | Structure | [Topline](https://github.com/librauee/PracticeCompetition/tree/master/dishonest_enterprise) | Practice | 2 / 305 | 63 | | 借贷风险预测 | 2020.12 - 2020.12 | Structure | [Topline](https://github.com/librauee/PracticeCompetition/tree/master/loan_risk_forecast) | Practice | 1 / 273 | 64 | | 公积金贷款逾期预测 | 2020.12 - 2021.2 | Structure | [Baseline](https://github.com/librauee/GJJDKYC) | Prizes | NA | 65 | | CCF BDCI 企业非法集资风险预测 | 2020.10 - 2020.12 | Structure | [Public](https://github.com/librauee/CCFBDCI2020) | Prizes | 11 / 4210 | 66 | | 中移集成首届OneCity编程大赛 | 2020.11 - 2020.12 | NLP | [Baseline、Public](https://github.com/librauee/OneCity) | Prizes | 15 / 663 | 67 | | 链想家计算科技大赛 | 2020.8 - 2020.11 | Structure | [Public](https://github.com/dengyin/MyCompetitions/tree/master/MoocCubeRank1) | Prizes | 1 / 630 | 68 | | WAIC全球工业互联网算法大赛 | 2020.7 - 2020.9 | Structure | [Private](https://github.com/librauee/WAIC2020) | Prizes | 2 / 200+ | 69 | | Kaggle ALASKA2 Image Steganalysis | 2020.5 - 2020.6 | Image | [Public](https://github.com/librauee/ALASKA2) | Prizes | NA | 70 | 71 | * NA = GG or 弃赛 72 | * UK = 参赛人数未知 73 | 74 | -------------------------------------------------------------------------------- /三次算法比赛.md: -------------------------------------------------------------------------------- 1 | 最近不怎么出现在大家的视野中,可不是因为我偷懒喔。在普遍唱衰算法岗位的大环境下,为了给自己的空白简历增加点色彩,也是给自己未来在就业市场增加求职的筹码。从今年六月份到现在这5个月我一共参加了三个算法比赛,就在前几天,刚刚结束了我的第三个比赛。今天就和大家聊聊,这几个比赛一个入门级菜鸟的真实感受。 2 | 3 | 我正儿八经参加的第一个比赛是kaggle上的图像隐写分析比赛,因为我本身的研究方向便是这个,于是我自信满满地参加了这个比赛。方向比较冷门,属于信息安全领域中的多媒体安全。很多朋友应该都没有听过隐写分析,我简单介绍一下。首先是**隐写**, 隐写指的是我们将秘密信息藏入载体之中(比如图像、语音、视频、文本等),不让其他人通过肉眼或者技术手段检测出来,而**隐写分析**正是指检测某个载体是否藏有秘密信息的技术。 4 | 5 | ![image](https://note.youdao.com/yws/public/resource/77ba0c551c3af0db19db77714ec79fa9/2AE477DAD6CD4C9881D55BD4E343576F?ynotemdtimestamp=1605156961833) 6 | 7 | 具体到这个比赛,目标就是检测某张图片是否藏有秘密信息,是一个看似简单的二分类问题。但由于嵌入算法的多样性,嵌入率的不确定性,隐写分析的难度相当大。 8 | 9 | 我一开始便选择了领域中的SOTA模型——SRNet, 但由于该模型是在实验室环境中的“无敌”, 无法适应该赛题的变化,效果令人大失所望。接着采用了效果惊艳整个CV届的EfficientNet, 尝试了b2-b5, 从b4开始因为显存的限制我不得不使用了混合精度。因为EfficientNet的强大性能以及我“娴熟”的玄学调参,我一度来到了接近LB银牌的位置,中间也尝试了很多不同的训练方法, 一些包含领域知识的解决思路, 但是非常遗憾,随着比赛的进行,大佬们的涌入让我眼睁睁地看着自己地排名下降,最令我难受地是切换到B榜之后,我直接shake了600名!一次疯狂的大跳水结束了我的处子秀。 10 | 11 | ![image](https://note.youdao.com/yws/public/resource/77ba0c551c3af0db19db77714ec79fa9/DFC0F7C4293D44949FA74E3DB06B0CE1?ynotemdtimestamp=1605156961833) 12 | 13 | 第二个参加的比赛是2020WAIC首届全球工业互联网算法大赛,这次比赛分为多个赛道,包含汽车赛道、高端装备赛道、航空航天赛道、医疗赛道和一个开放赛道,比赛目的是让AI算法与企业应用真正结合起来,采用的数据是真实的工业数据。 14 | 15 | 我从中挑选了两个赛道,其一是上海电气的利用算法搭建设备健康情况预警模型,其二是基于DNA编码化合物筛选数据的机器学习建模。同时进行两个赛道的比赛的原因是,这可以让我在比赛进程中根据自己的相对排名情况主攻排名靠前的赛道,有更大的可能获奖。 16 | 17 | 我最终主攻的是第二题,简单来说,这道题的任务是一个二分类问题,给定一堆化合物信息数据,包括其结构(SMILES表示),分子量,脂水分配系数等数据,来预测该化合物与靶点结合的性质为阴性或是阳性。对于SMILES的处理以及靶点筛选我查阅了很多文献,当下非常流行也是效果最棒的两个模型分别是LSTM和GNN, 于是我基于这两种模型分别进行了实验,两种模型都取得了不错的效果,但图网络还是更胜一筹,在经过线下验证线上反馈的方式调整自己的网络参数,最终在该赛道取得了客观成绩第二的好成绩,并且在经过答辩以及线上主观评审之后最终获得了单赛道的季军,也收获了人生的第一笔比赛奖金5000。 18 | 19 | ![image](https://note.youdao.com/yws/public/resource/77ba0c551c3af0db19db77714ec79fa9/0263BCFA09A048928616BCC7D8AF4AFC?ynotemdtimestamp=1605156961833) 20 | 21 | 前两次的比赛都是solo的,那么根据三人成虎(误)的道理,组个队融合一下岂不能获得更优的成绩,很开心这第三次比赛完美印证了我的猜想。我和邓佬组队取得了这次比赛初赛第二,复赛第一的好成绩。 22 | 23 | 这个比赛是链想家计算科技大赛MOOCCube学生行为分析挑战赛,我也同时参加了两个赛道,赛道一是学生退课行为预测,赛道二是学生答题正确性预测。 24 | 25 | 我主攻的赛道一赛题非常明确,那便是根据学生观看视频的历史数据来预测该学生是否会选择退课。该比赛我用时两个多月,疯狂地冲分导致我连做梦都在构造特征。初赛一步一步地从倒数到前二十到前十,期间还不断被新参赛的大佬们按到十名开外,到了比赛的最后阶段,我和邓佬一拍即合,完成了组队。一千个人眼里有一千个哈姆雷特,每个人对赛题的解读不同,数据处理方式不同,特征构造维度不同,经过思想的碰撞之后,我们各取所长,一举让我们冲到初赛LB第二名。 26 | 27 | 复赛这一天尤为刺激,也是我人生中睡眠时间最少的一天。2020年11月1日下午4时,我完成了复赛的第一次提交,查这个分和我当时高考查分的刺激程度有的一拼,我是从榜单的下面一直往上滑,最终发现自己在第一的位置,在开心地吃完晚餐之后发现自己以0.00006的微弱劣势屈居第二,并在次日凌晨四时发现自己掉到了排行榜第三位,而当时我们只剩最后一次提交机会,在一番纠结之后我选择了另外一种模型融合的方式,很高兴正是这一次的提交让我们再次回到了第一名的位置,也一直保持到了比赛结束。 28 | 29 | ![image](https://note.youdao.com/yws/public/resource/77ba0c551c3af0db19db77714ec79fa9/CF98E98A0DE945AB96C24373383DDD7D?ynotemdtimestamp=1605157010190) 30 | 31 | 打比赛一时爽,一直打比赛一直爽,这是我最真实而又深刻的体验。当你从排行榜的末端一直上升,一直上升到头部的位置,可能会经历开心,经历失落,中间的过程可能起起伏伏,而你精心构造的特征,辛勤付出的汗水一定会收获好的结果。 --------------------------------------------------------------------------------