├── .DS_Store ├── README.md ├── content ├── .DS_Store ├── 精读-ALBERT在房产领域的实践.md └── 精读-Embedding技术在民宿推荐中的应用-201907.md └── images ├── .DS_Store └── wechat.png /.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/DA-southampton/Tech_Aarticle/790322142e32ea5d60eb3ea1ee3000b9e1bc7421/.DS_Store -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | ## 实战深度学习模型文章阅读积累,主要是搜广推,欢迎关注; 2 | 3 | 微信公众号: NLP从入门到放弃 4 | 5 | ![微信公众号](./images/wechat.png) 6 | 7 | 8 | 建这个仓库的是因为工作之后发现生产环境中应用的模型需要做到速度和效果的平衡,并不是越复杂越好。所以一味的追求新的模型效果不大(并不是不追,也要多看新东西)。学到模型最终是要用,而且要用好,于是就建了这么个仓库,积累一下深度学习模型在各个公司中的应用以及细节,这样在自己工作中可以做到借鉴。主要是罗列一些各大公司分享的文章,涉及到搜索/推荐/自然语言处理(NLP),持续更新... 9 | 10 | 1. 模型部署 11 | 2. 搜索 12 | 3. 推荐 13 | 4. 多模态 14 | 5. NLP 15 | 6. 推荐系统 16 | 17 | ## 1. 部署 18 | 19 | 在我实际工作中,一般来说部署就是Flask+负载均衡,或者Grpc来提供服务。这个模块积累一下我看到不错的模型部署不错的文章 20 | 21 | [蘑菇街自研服务框架如何提升在线推理效率?](https://mp.weixin.qq.com/s/IzLtn1SR-aFuxXM3GNZbFw) 22 | 使用协程解决并发问题,使用FLask提供Restful接口,进行容器化部署 23 | [如何解决推荐系统工程难题——深度学习推荐模型线上serving?](https://zhuanlan.zhihu.com/p/77664408) 24 | 介绍了几种serving方式,值得一看 25 | [爱奇艺基于CPU的深度学习推理服务优化实践-201904](https://zhuanlan.zhihu.com/p/61853955) 26 | 爱奇艺主要是在算法,应用以及系统三个方面对模型的部署进行优化。系统级主要是针对硬件平台上做的一些性能优化的方法,应用级是跟特定应用相关的分析以及优化的方法,算法级是针对算法的优化,例如模型的裁剪,模型的量化,在四个任务上提升了10倍左右(引自原文) 27 | 28 | ## 2 搜索: 29 | 30 | ### 2.1 Query理解: 31 | 32 | 1. 搜索中的 Query 理解及应用 33 | https://mp.weixin.qq.com/s/rZMtsbMuyGwcy2KU7mzZhQ 34 | 35 | 2. 搜索中的Query扩展技术 36 | https://mp.weixin.qq.com/s/WRVwKaWvY-j-bkjxCprckQ 37 | 38 | 3. 再谈搜索中的Query扩展技术 39 | https://mp.weixin.qq.com/s/q4aPtUYi27h-0sqD4bokQQ 40 | 41 | 4. 搜索query意图识别的演进-微信AI 42 | https://mp.weixin.qq.com/s/0Hh_iV8tNFd0eEpXSxy9nA 43 | 44 | 5. [Albert在房产领域的应用-意图识别](https://github.com/DA-southampton/Tech_Aarticle/blob/master/content/精读-ALBERT在房产领域的实践.md) 45 | 46 | 讲的是贝壳用ALbert做意图分类,和Fasttext相比,提了大概8个点,推理速度耗时20ms 47 | 48 | 6. [达观数据搜索引擎的Query自动纠错技术和架构详解](http://t.cn/Rql7mz9) 49 | 7. [阿里文娱搜索算法实践与思考](https://www.infoq.cn/article/RUlwIBXPmUKILgqiyR4I) 50 | 51 | ### 2.2 搜索相关性排序 52 | 53 | 1. [Transformer在美团搜索排序中的实践-202004](https://tech.meituan.com/2020/04/16/transformer-in-meituan.html) 54 | 55 | (引用文中原句)本文旨在分享 Transformer 在美团搜索排序上的实践经验。内容会分为以下三个部分:第一部分对 Transformer 进行简单介绍,第二部分会介绍 Transfomer 在美团搜索排序上的应用以及实践经验,最后一部分是总结与展望。希望能对大家有所帮助和启发。 56 | 57 | 2. [深度学习在文本领域的应用-201808](https://tech.meituan.com/2018/06/21/deep-learning-doc.html) 美团的文章,主要是讲了基于深度学习的的文本匹配和排序模型。其中讲了DSSM和变种,引申出来美团自己的ClickNet,基于美团场景进行了优化,大家可以细看一下 58 | 59 | 3. 京东电商搜索中的语义检索与商品排序 60 | https://mp.weixin.qq.com/s/4UBehc0eikVqcsFP7xL_Zw 61 | 62 | 4. 阿里文娱深度语义搜索相关性探索 63 | https://mp.weixin.qq.com/s/1aNd3dxwjCKUJACSq1uF-Q 64 | 65 | 5. 机器学习在高德搜索建议中的应用优化实践 66 | https://mp.weixin.qq.com/s/D3qxlzZgwnMprzEVuMpmgg 67 | 68 | 6. [DSSM文本匹配模型在苏宁商品语义召回上的应用-201909](https://ai.51cto.com/art/201909/603290.htm) 69 | 70 | 详细介绍了DSSM模型在苏宁召回的使用,细节很多,居然还点出用的hanlp做的分词(也太细了吧),推荐大看看 71 | 72 | 7. [基于BERT,神马搜索在线预测性能如何提升?-201908](https://developer.aliyun.com/article/714552) 讲了一下在神马搜索中bert的性能优化细节,大致就是使用了知乎的cuBert,然后重写了预测逻辑 73 | 74 | 8. [阿里文娱搜索算法实践与思考-202006](https://mp.weixin.qq.com/s?src=11×tamp=1591784596&ver=2392&signature=xsYYdd4UJzPrf6ZzFqnvqJTqf5aaHelBl9-vK9gLMSEDuN9ntXb9ZxM89Zcn*ylB0J-yBOyPUaVKU3QzrTQv8hU4I007NIw2*vbZfvctCrzhzIioU3WSJKuXlnRx*fP0&new=1) (引用文中原句)本文将以优酷为例,分享视频搜索的算法实践,首先介绍优酷搜索的相关业务和搜索算法体系,从搜索相关性和排序算法的特点和挑战到技术实践方案的落地,最后会深入介绍优酷在多模态视频搜索上的探索和实践。 75 | 76 | 9. [视频搜索太难了!阿里文娱多模态搜索算法实践-202005](https://www.infoq.cn/article/16UENbPwYMX7YZC0bhyL) 对比上一个看 77 | 78 | 10. [XGBoost在携程搜索排序中的应用-201912](https://mp.weixin.qq.com/s?src=11×tamp=1591786531&ver=2392&signature=hW8Du7a5sFL*BvkQ8qbnTSUNDfZtYoHL68DKdDFHFPAsb4ndTi9EXlmT-TyPstif0QYq9Z040LlQabdTs9e2UVpmhh5gD3M21BVeN24Y1TSvPBJmKMMRTMBNe6goPYuS&new=1) 如题 79 | 80 | 11. [爱奇艺搜索排序模型迭代之路-201909](https://cloud.tencent.com/developer/article/1500313) 如题 81 | 82 | 12. [滴滴搜索系统的深度学习演进之路-201908](https://www.infoq.cn/article/90ByjIRA29uxNO0zStsy) 如题 83 | 84 | 13. [深度学习在 360 搜索广告 NLP 任务中的应用-201907](https://www.infoq.cn/article/WZR0b9cjkse8uKgKd*eX) 85 | 86 | 本文作者比对了DSSM 和 ESIM 以及Bert三种模型,介绍了三种模型在实际工作中的应用细节 87 | 88 | 14. [小米移动搜索中的 AI 技术-201906](https://www.infoq.cn/article/1pcW2hMQt6wsFxaN*srw) 89 | 90 | 大概讲了一下搜索中用的技术,比如文本相似度-dssm,具体的看文章吧 91 | 92 | 15. [深度学习在搜索业务中的探索与实践-美团-201901](https://tech.meituan.com/2019/01/10/deep-learning-in-meituan-hotel-search-engine.html) 93 | 94 | (引用文中原句)本文会首先介绍一下酒店搜索的业务特点,作为O2O搜索的一种,酒店搜索和传统的搜索排序相比存在很大的不同。第二部分介绍深度学习在酒店搜索NLP中的应用。第三部分会介绍深度排序模型在酒店搜索的演进路线,因为酒店业务的特点和历史原因,美团酒店搜索的模型演进路线可能跟大部分公司都不太一样。最后一部分是总结。 95 | 96 | 16. [深度学习在搜狗无线搜索广告中的应用-201803](https://cloud.tencent.com/developer/article/1063013) 97 | 98 | (引用文中原句)本次分享主要介绍深度学习在搜狗无线搜索广告中有哪些应用场景,以及分享了我们的一些成果,重点讲解了如何实现基于多模型融合的CTR预估,以及模型效果如何评估,最后和大家探讨DL、CTR 预估的特点及未来的一些方向。 99 | 100 | 17. [搜索相关性算法在 DiDi Food 中的探索](https://www.infoq.cn/article/01O8GTA66sakZOtbyUcL) 101 | 102 | ### 2.3 其他: 103 | 104 | 1. 阿里文娱算法公开课#04:算法工程师的核心技能-搜索推荐篇 105 | https://mp.weixin.qq.com/s/vgrWwSZLbl5svAcrxNuJpg 106 | 107 | 2. [说一说视频搜索](https://zhuanlan.zhihu.com/p/144359114?utm_source=wechat_session&utm_medium=social&utm_oi=691775466138251264&utm_content=sec) 108 | 109 | ## 3. 推荐 110 | 111 | ### 3.1 总体介绍 112 | 113 | 1. 美图个性化推送的 AI 探索之路 114 | https://mp.weixin.qq.com/s/HRGk5bfaOdj-6X4opEYA-w 115 | 2. 信息流推荐的用户增长机制 116 | https://mp.weixin.qq.com/s/hjeS_nEsvxu0D_Bj2vJe7w 117 | 3. 智能推荐算法在花椒直播中的应用 118 | https://mp.weixin.qq.com/s/ec88cMR4K6pWyHhJs7FEFQ 119 | 4. [智能推荐算法在直播场景中的应用--花椒推荐系统](https://mp.weixin.qq.com/s/fUdKIqygxqlkuv0P4wiIRg) 120 | 5. 58同镇下沉市场中的推荐技术实践 121 | https://mp.weixin.qq.com/s/j6FWqkdbOdQk-qAmYNmJqQ 122 | 6. 信息流推荐在凤凰新闻的业务实践 123 | https://mp.weixin.qq.com/s/aCTP4OCGyWxWGrlCFHSYJQ 124 | 7. 广告算法在阿里文娱用户增长中的实践 125 | https://mp.weixin.qq.com/s/NVQPv5ua9kxw1MK8UVQcuQ 126 | 8. Attention机制在深度学习推荐算法中的应用 127 | https://mp.weixin.qq.com/s/1LYyiDJBDKVgNjc7a1Qc4A 128 | 9. 跨域推荐技术在58部落内容社区的实践 129 | https://mp.weixin.qq.com/s/YylA34cBEshzb9sFY0gklw 130 | 10. [携程个性化推荐算法实践-201801](https://zhuanlan.zhihu.com/p/32785759) 131 | 11. [深度学习在58同城智能推荐系统中的应用实践-201802](https://mp.weixin.qq.com/s/qCpCHueEK7Nja-cPmlCaCg?) 132 | 12. [贝壳找房的深度学习模型迭代及算法优化-201910](https://cloud.tencent.com/developer/article/1528388) (引用文中原句)第一阶段:建立初版模型系统,采用 XGBoost 模型,完成项目从 0 到 1 的过程; 第二阶段:深度学习模型,采用 DNN+RNN 混合模型; 第三阶段:效果持续优化,也是业务需要。 133 | 13. [wide&deep 在贝壳推荐场景的实践-201912](https://mp.weixin.qq.com/s?__biz=MzI2ODA3NjcwMw%3D%3D&mid=2247483659&idx=1&sn=deb9c5e22eabd3c52d2418150a40c68a&scene=45#wechat_redirect) 如题,看了之后感觉还不错, 134 | 14. [优酷视频基于用户兴趣个性化推荐的挑战和实践-201802](https://developer.aliyun.com/article/443621?scm=20140722.184.2.173) 简单介绍:(引用文中原句)本文将介绍一下优酷个性化搜索推荐的服务,优酷在视频个性化搜索推荐里用户兴趣个性化表达碰到的挑战和问题,当前工业界常用的方法,以及我们针对这些问题的尝试。 135 | 15. [深度学习在美团点评推荐业务中实践-201901](https://zhuanlan.zhihu.com/p/55023302) (引用文中原句)在推荐平台的构建过程中,多策略选品和排序是两个非常重要的部分,本文接下来主要介绍深度学习相关的推荐算法,主要包括 DSSM、Session Based RNN 推荐召回模型与 Wide Deep Learning 的排序模型,我们会介绍深度学习模型在推荐业务应用及实现的相关细节,包括模型原理、线上效果、实践经验及思考。 136 | 16. [千人千面营销系统在携程金融支付的实践](https://cloud.tencent.com/developer/article/1500371) (引自原文)支付中心数据组开发的一套用户精准营销系统 137 | 17. [搜狗信息流推荐算法实践-201904](https://www.infoq.cn/article/A9w0Xg-P1vqbUZ4cEmyH) 还没看。。。 138 | 18. [强化学习在携程酒店推荐排序中的应用探索](https://cloud.tencent.com/developer/article/1449819) (引用原文)我们尝试在城市欢迎度排序场景中引入了强化学习。通过实验发现,增加强化学习后,能够在一定程度上提高排序的质量。 139 | 19. [双 DNN 排序模型:在线知识蒸馏在爱奇艺推荐的实践-202002](https://www.infoq.cn/article/pUfNBe1o6FwiiPkxQy7C) 还没看。。但是看文章写得效果很厉害,“其中,在爱奇艺短视频场景时长指标 +6.5%,点击率指标 +2.3%;图文推荐场景时长指标 +4.5%,点击率指标 +14% ”(引用自原文) 140 | 141 | ### 3.2 召回 142 | 143 | 1. "全能选手"召回表征算法实践--网易严选 144 | https://mp.weixin.qq.com/s/s4tNPWQrisYIiMuNUzEtNQ 145 | 146 | 2. 深度召回在招聘推荐中的挑战和实践 147 | https://mp.weixin.qq.com/s/mcETNOICbabRRq9BBdL4zw 148 | 149 | 3. 阿里飞猪个性化推荐:召回篇 150 | https://mp.weixin.qq.com/s/323D5MFivtrmo3ISwQbpYg 151 | 152 | 4. YouTube采样修正的双塔模型论文精读 153 | 154 | https://mp.weixin.qq.com/s/us4qGD3LDgLmPy2m-qq-iw 155 | 156 | ### 3.3 排序 157 | 158 | 1. 深度学习在商业排序的应用实践-58同城 159 | https://mp.weixin.qq.com/s/2SRGdFZ9RVl4ljBh5MIUqQ 160 | 2. 汽车之家推荐系统排序算法迭代之路-视频 161 | https://mp.weixin.qq.com/s/3wAR3evFAeKfsCYJ6WLTHQ 162 | 3. [深度学习在美团点评推荐平台排序中的运用-201707](https://tech.meituan.com/2017/07/28/dl.html) 163 | 4. [美团“猜你喜欢”深度学习排序模型实践-201803](https://tech.meituan.com/2018/03/29/recommend-dnn.html) (引用文中原句)目前,深度学习模型凭借其强大的表达能力和灵活的网络结构在诸多领域取得了重大突破,美团平台拥有海量的用户与商家数据,以及丰富的产品使用场景,也为深度学习的应用提供了必要的条件。本文将主要介绍深度学习模型在美团平台推荐排序场景下的应用和探索。 164 | 5. [爱奇艺个性化推荐排序实践-201907](http://www.iqiyi.com/common/20171025/46d31f38d4cb7ee2.html) 还没看 165 | 166 | ### 3.4 Embedding 167 | 168 | 1. 推荐系统 Embedding 技术实践总结 169 | https://mp.weixin.qq.com/s/7DXVrJUU-PvKiQnipJKVtw 170 | 2. 向量体系(Embedding)在严选的落地实践 171 | https://mp.weixin.qq.com/s/NJDfrGJgIE2KK_t-yJ-C9Q 172 | 3. [Embedding技术在房产推荐中的应用](https://mp.weixin.qq.com/s/flmPJtzeXLXDQXusI3Umxw) 173 | 4. [Embedding 技术在民宿推荐中的应用-201907](./content/精读-Embedding技术在民宿推荐中的应用-201907.md) 使用item2vec对app内房源进行embding,然后进行推荐,细节比较多,包括训练细节,数据构造细节等等,推荐看一看,我自己有精读,大家可以对照着看一看 精读完成 174 | 175 | ### 3.5 用户画像 176 | 177 | 1. 网易严选画像建设实践 178 | https://mp.weixin.qq.com/s/pmovTV3TIoB6oA60pL_zeg 179 | 180 | 2. 网易大数据用户画像实践 181 | https://mp.weixin.qq.com/s/jyiDWiK0zczEaZKY5Hy5xg 182 | 183 | 3. 阅文用户画像 184 | https://mp.weixin.qq.com/s/ddRjNDBVuY03nQSGLncjtg 185 | 186 | ### 3.6 用户序列建模 187 | 188 | 1. 网易云音乐推荐中的用户行为序列深度建模 189 | https://mp.weixin.qq.com/s/Whf0rmuVapzZAB33TUj1Ig 190 | 191 | ## 4. NLP 192 | 193 | ### 4.1 内容理解 194 | 195 | 1. 腾讯信息流内容理解技术实践 196 | https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247495622&idx=1&sn=3d229e34dfe061b61bb47b4677def6a0&chksm=fbd75daacca0d4bc83d02b78b7d7c8485521eba07a03553db52ba039f3d948835f3d750a301e&scene=21#wechat_redirect 197 | 198 | 2. 微信"看一看"内容理解与推荐 199 | https://mp.weixin.qq.com/s/vr9bKEXI5o6L3FYig4HgNA 200 | 3. 腾讯信息流热点挖掘技术实践 201 | https://mp.weixin.qq.com/s/keSYVCS0k3rvngGvcsJKbA 202 | 4. 医疗健康领域的短文本理解-丁香园 203 | https://mp.weixin.qq.com/s/CNBP5xSvr4Y3Xm1-NMS79g 204 | 5. 热点挖掘技术在微信看一看中的应用 205 | https://mp.weixin.qq.com/s/oMNy-g2DxUnsGErefQBkyg 206 | 6. [NLP 技术在微博 feed 流中的应用](https://www.infoq.cn/article/O5ytPDlYkfX3H26k6zru) 207 | 208 | ### 4.2文本分类 209 | 210 | 211 | 212 | ### 4.3 文本匹配 213 | 214 | 1. [语义匹配在贝壳找房智能客服中的应用-202005](https://mp.weixin.qq.com/s?src=11×tamp=1591783120&ver=2392&signature=RZJ5qcZ5PEc0eHDi9eznGXdaoQM2s2WEgsQgMlft5aPuOUiveyUcsoMCIm-sefmm8sRV2OpzrpsoaR6xAv8He0Q84azUJ5wv5gcvB1KQcx7OyN7A1b0QIt2xIpvhSSRH&new=1) 215 | 216 | 2. [丁香园在语义匹配任务上的探索与实践](https://mp.weixin.qq.com/s/Zn7oXWQPOt6KM1MsOtYfxA) 217 | 218 | 3. [深度文本表征与深度文本聚类在小样本场景中的探索与实践](https://mp.weixin.qq.com/s/dWAf2kczbjhQGhn8MZdjAQ) 219 | 220 | 4. 爱奇艺深度语义表示学习的探索与实践 221 | https://mp.weixin.qq.com/s/f524bPx0pq7qxXGjpa7WCQ 222 | 223 | 224 | 225 | ### 4.4 命名体识别 226 | 227 | 228 | 229 | ### 4.5 预训练模型 230 | 231 | 1. 网易严选nlp-预训练语言模型的应用 232 | https://mp.weixin.qq.com/s/hUbMbmEtLB7L0_H4DGc8Ew 233 | 2. 通用的图像-文本语言表征学习:多模态预训练模型 UNITER 234 | https://mp.weixin.qq.com/s/GxQ27vY5naaAXtp_ZTV0ZA 235 | 3. [美团BERT的探索和实践-201911](https://tech.meituan.com/2019/11/14/nlp-bert-practice.html) Bert在美团场景中的改进和优化,很厉害,细节很多 236 | 237 | ### 4.6 文本生成 238 | 239 | 1. Seq2seq框架下的文本生成-丁香园 240 | https://mp.weixin.qq.com/s/NAPIUtTD7ZEAIEgoJeQM4A 241 | 242 | ### 4.7 文本纠错 243 | 244 | 1. 基于BERT的ASR纠错 245 | https://mp.weixin.qq.com/s/JyXN9eukS-5XKvcJORTobg 246 | 247 | ### 4.8 数据增强 248 | 249 | 1. 文本增强技术的研究进展及应用实践 250 | https://mp.weixin.qq.com/s/CHSDi2LpDOLMjWOLXlvSAg 251 | 252 | ### 4.9 情感分析 253 | 254 | 1. [情感分析算法在阿里小蜜的应用实践](https://mp.weixin.qq.com/s/k-gS6k3-hy-ZI_r901IGvg) 255 | 256 | ### 4.10 智能客服 257 | 258 | 1. [AI技术如何打造58同城智能客服商家版“微聊管家”](https://mp.weixin.qq.com/s/_D9HX03ZmnXXX72MTrCx7g) 259 | 2. [58同城智能客服技术解密](https://mp.weixin.qq.com/s/5ewD2xD8J08W89-Rwixw4Q) 260 | 3. 深度学习在网易严选智能客服中的应用 261 | https://mp.weixin.qq.com/s/SPtNy_1_6fiFXKukMmVPlA 262 | 4. 严选智能客服业务知识库自动挖掘方案 263 | https://mp.weixin.qq.com/s/AyaDkbKYhdRbc-uvFHNv4w 264 | 265 | ### 4.11 其他 266 | 267 | 268 | ## 5. 多模态: 269 | 270 | 1. [爱奇艺短视频分类技术解析](https://www.infoq.cn/article/f49e-Gb1xQxh8DttFDgb) 271 | 272 | 全文重点在三个,一个是爱奇艺视频分类体系,一个是层次表示模块,一个是特征模块,介绍的比较详细,需要精读一下 273 | [爱奇艺短视频质量评估模型](https://toutiao.io/posts/pbf8qf/preview) 274 | 275 | 介绍封面文本视频内容质量评分,大概读一下就可以 276 | 277 | 3. [阿里文娱多模态视频分类算法中的特征改进](https://www.6aiq.com/article/1585549128737) 278 | 279 | 主要介绍类目体系构建介绍,模型特征调优,模型调优,值得精读一下 280 | 281 | 4. [爱奇艺短视频软色情识别技术解析](https://www.infoq.cn/article/D7Ks_lLADmKFIm7ipMlP) 282 | 283 | 很细致,看一下 284 | 285 | 5. [优酷在多模态内容理解上的研究及应用](https://www.infoq.cn/article/xgP_eyfidAA2l5ShcCPp) 286 | 287 | 主要是一些多模态概念的讲解,干货不多,大概看一下就可以 288 | 289 | 6. [多模态商品分类解决方案-深度学习在真实NAVER购物网站的应用](https://juejin.im/post/5d2dc7a9f265da1b96133852) 290 | 291 | 细节点比较多,偏实战,精读一下 292 | 293 | 7. [FashionBERT 电商领域多模态研究:如何做图文拟合?](https://developer.aliyun.com/article/763357) 294 | 8. 阿里文娱多模态视频分类算法中的特征改进 295 | https://mp.weixin.qq.com/s/6kTb6r3Vj3mgQn90UsZ1nw 296 | 9. 美团本地生活场景的短视频分析 297 | https://mp.weixin.qq.com/s/UyMDskA0eGN-NmiifwQF6Q 298 | 10. 爱奇艺视频精彩度分析 299 | https://mp.weixin.qq.com/s/hDqyItDxBfJ652BI0OT4dA 300 | 301 | 11. [5G 时代下:多模态理解做不到位注定要掉队](https://www.infoq.cn/article/EoEdfBO3-RNW1btNsQjJ) 302 | 303 | 12. [短视频数据补充1](https://www.ctolib.com/yuanxiaosc-Multimodal-short-video-dataset-and-baseline-classification-model.html)[补充2](https://yuanxiaosc.github.io/2019/07/11/%E7%9F%AD%E8%A7%86%E9%A2%91%E5%88%86%E7%B1%BB%E6%8A%80%E6%9C%AF/) 304 | 305 | 13. [UC信息流视频标签识别技术](https://www.secrss.com/articles/14055) 306 | 307 | 14. [技术动态-多模态学习调研 (附完整PPT)](https://mp.weixin.qq.com/s/g3rwPsusYi7gQopOHvdNrA) 308 | 309 | 15. [多模态情感分析简述](https://mp.weixin.qq.com/s/xzeNAuuDt_VLHDgvIkc-Mg) -------------------------------------------------------------------------------- /content/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/DA-southampton/Tech_Aarticle/790322142e32ea5d60eb3ea1ee3000b9e1bc7421/content/.DS_Store -------------------------------------------------------------------------------- /content/精读-ALBERT在房产领域的实践.md: -------------------------------------------------------------------------------- 1 | ## 模型实战(三)--Albert究竟能不能上线?能!效果怎么样?很好!耗时如何?20ms!! 2 | 3 | Bert 简单粗暴效果好,估计很多同学一直在想上线,奈何Bert 推理实在是慢。 4 | 5 | 所以针对 Bert 的加速就是一个很值得做的领域,出来的方法也很多。比如做模型的压缩,蒸馏,或者训练的时候的小技巧。 6 | 7 | 最近有个 Fastbert 做文本分类,原作者已经开源了,效果不错,大家可以试试。大概内容就是针对 Bert-12/24,简单的数据提前输出结果,复杂数据走完全程,是一个很好的idea。 8 | 9 | 书归正传,这个文章是之前看过一篇文章,讲的是关于 Albert 如何在上线做意图识别。我做了个简单的笔记,希望对大家有帮助,阅读的文章是《ALBERT在房产领域的实践》链接在最后。 10 | 11 | 接下来分为两个部分,第一部分是整体概括,时间不够的朋友看完第一部分把握住重点即可,感兴趣的可以继续看第二部分的详细介绍。 12 | 13 | ****** 14 | 15 | ### 1. 简单介绍: 16 | 17 | 贝壳找房,使用Albert_Tiny(大小4M),基于30G房产领域进一步训练,训练耗时42小时,上线意图识别任务,测评效果提升8个点,响应时间为20ms。 18 | 19 | 简直太精炼了!!文中还有一个有意思的点是贝壳找房的意图识别的架构,是分级架构,具体的看下面吧 20 | 21 | ****** 22 | 23 | ### 2. 详细介绍 24 | 25 | 我先说一下自己的经验,之前线下测试过 ALbert 的效果,和 Bert 比,效果掉的有点多,而且推理速度和 Bert 相比并不是特别的有优势。所以我们来看一下贝壳找房为了模型上线做了哪些努力。 26 | 27 | ******* 28 | 29 | #### 2.1模型的选择 30 | 31 | 贝壳找房使用的是 Albert_Tiny 模型。对于 Albert_Tiny,结构是 4 层 Encoder。 32 | 33 | 注解:原文说的是 4 个 Transformer,不太准确。 34 | 35 | 其实对于 Albert ,原理就不多说了,注意它有个细节点:模型大小减少最主要的原因是共享参数的存在。所以在推理的时候,速度优势并不明显,该做的推理并没有减少多少。 36 | 37 | 为了解决这个问题,贝壳找房这里使用的是 4 层 encoder,其实推理速度变快主要是因为这个,层数减少了,推理速度就变快了。 38 | 39 | ******* 40 | 41 | #### 2.2模型训练 42 | 43 | 对于 Bert 系列的模型来说,训练常规来说是两个步骤。 44 | 45 | 第一步获取作者原始的模型,一般来说谷歌这种大佬公司都会放出来各种语言的预训练模型。 46 | 47 | 第二步使用自己的任务数据进行微调。没条件的同学做这两个步骤就可以了。贝壳找房为了提高模型的准确度,使用内部的房产数据,基于作者的原始数据,又进一步训练。 48 | 49 | 数据情况是这样的: 50 | 51 | - 30G左右的房产领域语料; 52 | - train_batch_size=512; 53 | - max_seq_length=128; 54 | - num_train_steps=30000; 55 | - 4块v100; 训练了42h 56 | 57 | 接下来,是对模型做微调。贝壳找房做了两个任务的微调,一个是意图识别,一个是句式判定,线下效果都不错,我这里谈一下上线的意图识别的任务。 58 | 59 | ****** 60 | 61 | #### 2.3 意图识别架构-很有意思 62 | 63 | 使用 Albert 做意图识别没什么特殊的,就是一个分类问题。这里我想提一个比较有意思的点,就是贝壳找房的 64 | 65 | 意图识别的框架。 66 | 67 | 想象这样一个场景,你手里有 10000 个意图,你要对接口传过来的一句话进行意图识别。判断一下他是想要:娱乐/电影/公益... 68 | 69 | 这是我随意写的类别,不太清楚房产领域,就拿我熟悉的分类情况举例吧。 70 | 71 | 从 Word2vec 我们就可以知道,最后一层的 softmax 在类别数据较多的时候计算量是很大的。 72 | 73 | 如果是你,你怎么优化?你当然可以使用霍夫曼进行简化,这也是为啥贝壳找房最初使用的是 Fasttext 作 Baseline 。 74 | 75 | 但是!!这样的场景还会存在一个特别大的问题,就是如果,因为业务改版,原来的 10000 个意图,增大或者减少了几百个意图,你这个模型怎么办? 76 | 77 | 如果你只是训练了一个 10000 分类的多分类模型,毫无疑问,你的这个模型在改版之后就废了,基本没啥用。 78 | 79 | 基于此,还能怎么优化? 80 | 81 | 有这么一种做法,对每个意图进行两两分类,是不是找娱乐领域,是不是电影领域,是不是公益领域等等。 82 | 83 | 这样,在出现意图增加或者减少的时候,废除的模型就是相关的那么几个,你大部分意图模型还是可以用的。而且对每个意图的优化可以并行着做。 84 | 85 | 但是上面这个还存在一个问题,就是模型数量太多了,维护起来不太好维护。所以贝壳这个架构就很有意思。 86 | 87 | 它先使用一个模型,做一个12个技能的多分类,相当于首先做了一个粗分类。然后再针对每个技能结果做一个多分类。 88 | 89 | 举一个简单的例子帮助理解,一个文本从接口传过来过来,我先给他分为娱乐领域(这一个步骤相当于技能分类-粗分类),再判断是娱乐领域下的哪个子标签(相当于再分类),是关于娱乐明星的,还是关于电视剧的,还是关于娱乐八卦的。 90 | 91 | 用一个简单的话说,就是做了个二级标签,这个方法很多垂直领域网站都有用到,贝壳把这个方法扩展到意图识别,想法很简单,不过效果很好。 92 | 93 | ****** 94 | 95 | #### 2.4 意图识别效果 96 | 97 | - Baseline:fasttext 0.75 98 | - 原始albert+微调 0.80 99 | - 原始albert+领域训练+微调 0.83 100 | 101 | ****** 102 | 103 | #### 2.5 意图识别上线 104 | 105 | 上线注意两个点。 106 | 107 | 第一个是数据预处理和原作者训练 Albert 的保持一致,这个和 Word2vec 很相似,类似使用相同的分词器。 108 | 109 | 第二个就是控制响应时间,Albert的响应时间大概在 20ms 到 30ms 之间,完全符合上线要求。 110 | 111 | ****** 112 | 113 | ### 3. 简单总结 114 | 115 | 没啥好说的了,只是想在这里猜测一下为啥 Albert 只是用在了贝壳找房的意图识别这个任务上(当然也有可能是用在了别的任务但是没说出来)。我自己线下测试的时候,Albert 的效果在文本分类和文本相似度判定这种简单任务上效果相比 Bert 能掉2 到3个点,至于其他复杂任务,更惨。 116 | 117 | 所以总结来说,Albert还是在这种简单任务更适合,速度能接受,效果也还行。 118 | 119 | 打完收工,关注一波公众号吧!!有很多别的内容!! 120 | 121 | 微信公众号:NLP从入门到放弃 122 | 123 | ![微信公众号](../images/wechat.png) 124 | 125 | 全文参考链接: 126 | ALBERT在房产领域的实践-公众号贝壳智搜 127 | -------------------------------------------------------------------------------- /content/精读-Embedding技术在民宿推荐中的应用-201907.md: -------------------------------------------------------------------------------- 1 | ## 精读-Embedding技术在民宿推荐中的应用-201907 2 | 3 | 4 | 我最近读了一篇文章,原文叫做“Embedding技术在民宿推荐中的应用”,参考链接在底部。 5 | 6 | #### 1. 简单介绍 7 | 8 | 这是一篇对《Embedding技术在民宿中的应用》精读的笔记。 9 | 10 | 最近知乎或者公众号有很多关于embedding在推荐系统的总结,总结的都很好,不过很多是一些系统性的概述,并没有深入模型细节去讲怎么训练,怎么优化,怎么部署之类的东西。 11 | 12 | 之前看过不少关于此的文章,偏工程实战的,我做了点笔记,慢慢发上来。 13 | 14 | 对原文一句话总结就是讲了如何使用skip-gram训练得到item2vec-embedding,对相似房源进行推荐,详细阐述了数据获取,模型训练细节,模型优化细节,冷启动问题。 15 | 16 | 我先来个在第一部分来个简单概述,然后来个详细介绍,时间不够的大佬们看完第一个就可以。 17 | 18 | 所有相关模型实战文章讲解,全都放在了这里: 19 | 20 | https://github.com/DA-southampton/Tech_Aarticle 21 | 22 | (话说这两天的star让我有点受宠若惊) 23 | 24 | #### 2.懒人介绍 25 | 26 | 这个文章简单来说,就是使用用户对房源的点击日志,构造数据,使用item2vec方法来训练房源对应的embedding,上线之后效果不错。其中,我比较关注的点有以下几个: 27 | 28 | ##### 2.1 训练数据是如何构造, 29 | 30 | 这里细节比较多,比如根据间隔时间确实是一段序列还是两个序列,比如如何构造训练数据中的的正样本,如何构负样本,比如为何把全天的点击房源会当做同个用户所有序列的正样本,而且权重更高(权重就是当做点击五次,很有意思。) 31 | 32 | ##### 2.2 模型训练细节, 33 | 34 | 使用的800万点击日志,构造了4000万训练数据,训练了一天的时间。 35 | 36 | ##### 2.3 embedding的更新规则 37 | 38 | 途家并没有简单的对于新的训练数据进行重新训练,而是做了一个类似预训练的东西,使用当前的权重,然后使用近两个月的日志作为新的数据进行训练,不存在的样本放到矩阵模型随机初始化。 39 | 40 | ##### 2.5 房源冷启动的问题 41 | 42 | 就是对于新样本这个embedding如何确定。这一点上,很好理解,就是找到和当前新的房子比较相似的房子集合,做一个embedding的平均就可以,至于说这个房源相似房源的获取,途家这里采用的就是设定维度比如房间数目比如是否靠海之类的特征表示进行相似度的判定。 43 | 44 | 总的来说,这个文章可以借鉴的地方还是很多的,精读还是有必要的,所以如果有时间看看我下面的详细介绍更好,没时间看到这里就可以了。 45 | 46 | #### 3.详细介绍 47 | 48 | 首先我们需要理解的一个点是,对于一个app来说,最主要是就是两种数据,一种是用户数据,一个是商品数据。所以在做推荐的时候,可以从用户角度出发进行推荐,也可以从商品角度出发进行推荐。 49 | 50 | ##### 3.1 数据特点 51 | 52 | 对于途家这种app的数据,按照原文的说法,叫做(引自原文)“用户消费频次低,用户兴趣点不好描述”。这两个特点是从用户角度来描述的。 53 | 54 | 用户消费频次低,其实很好理解,我们出去民宿一般是放假旅游才会去,所以消费频次当然低。 55 | 56 | 用户的兴趣点不好描述,我是这么理解的,每次出游的目的地不同,同行的人不同等等,就回导致每次选择不同,换句话讲,就是兴趣点不是特别稳定的。 57 | 58 | 比如说,这次你和女朋友一起去,肯定希望来个情侣大床那种,如果带着孩子,你就需要考虑孩子的感受,带着父母就就又换了另一种要求,等等吧。 59 | 60 | 说上面这个是什么意思呢?就是说,从用户的角度进行推荐不好做!!今天推荐给你的是按照你半年前出行的兴趣点来推荐,效果能好才有鬼了。 61 | 62 | 所以基于此,途家是从商品角度的进行推荐,以不变应万变,不管用户怎么变,商品性质是相对固定的(肯定不是不变的,所以我说的是相对)。 63 | 64 | ##### 3.2 推荐方法抉择 65 | 66 | 从商品方向进行推荐,途家考虑了三种个性化的方案,分别是基于内容,基于item-to-item,基于embedding进行推荐。 67 | 68 | 首先来说基于内容的推荐。基于内容的推荐本质是在计算内容相似度,所以只需要对商品特征维度确定好,然后做好特征工程就可以,这种方法在各大公司还是有上线的。在途家这里,对应商品特征就是,图片颜色是什么样子的,装修风格是怎么样的,是否适合情侣,是否适合孩子等等特征。缺点就是数据需要大量人工标注。 69 | 70 | 对于基于item的协同过滤来说,本质上也是在计算商品相似度,只不过使用的是有多少共同的用户喜欢。按照途家的说法,在他们的实践中,在酒店民宿上会陷入以地标相似为主的窘境。这一点我没太理解,我猜测是点击用户的问题??希望有大佬解惑。 71 | 72 | 第三种方式就是基于embedding为主的推荐,这是原文分享的重点信息。 73 | 74 | 对于embedding代表房子信息这个方法,需要注意到两点,一个是内积大的代表相似度高,一个是一个用户在一段时间内(我理解是在一个搜索需求之下的)浏览过的房子是具有内在相似性的。 75 | 76 | 这个很好理解,我们去打开一个app看旅游民宿,肯定是搜一遍,慢慢的看,肯定是在最后的一段时间点击的概率最大,在这个过程中,你会跳过一些房子(感受一下,这个真的很像一个句子的形式,有的单词重要,有的单词就是停用词,直接跳过就可以) 77 | 78 | ##### 3.3 Skip-gram训练 79 | 80 | 对于embedding来说,一般做graph-embedding或者item2vec。途家使用的是第二种,采用的item2vec(skip-gram) 81 | 82 | Skip-gram模型在房产中如何应用呢? 83 | 84 | (下面的9个小点是引自原文,加上了我的理解) 85 | 86 | 1. 一段时间内的浏览商品行为作为一个无序序列,也就是一个无序的句子。至于说为什么看做无序,我是这样理解的,用户看过的房源序列肯定是和时间有关系的,但是这个关系有多大是个问题,如果很大,那么就是类似语言模型,直接看做有序,如果关系不大,就没必要了。 87 | 2. 两个行为超过半个小时,按照两个行为序列来看。很好理解,就是超过一段时间,很有可能用户就去做别的事情了,下一个行为序列可能就发生了变化,所以看做两个序列是正常的。 88 | 3. 一个序列中,点击的房子作为正样本,跳过的房子作为负样本。对应到句子上,就是上下文为正样本,非上下文为负样本(非上下文可能是句子内部也可能是非句子内部) 89 | 4. 当天下单的房子作为当天所有上下文的正样本,而且权重更大。也就是在训练的时候,当天下单的房子可以作为所有序列的正样本。这样有一个好处就是有的序列正样本较少,可以适当的补充正样本数量。途家是把它当做了五次点击行为。 90 | 5. 正样本中任何一个房子可以作为输入 91 | 6. 其前后 2 个正样本及下单房子作为输出中的正样本。 (这个每太理解,前后指的是上下文中的吗?还是前后序列,感觉应该是上下文中的正样本,这样下单的样本就保证了2个数字) 92 | 7. 采样一个上下文中跳过的 8 个房子作为输出中的负样本 93 | 8. 补充采样上下文中目的地 (可能多个) 的若干个房子作为负样本 94 | 9. 一个训练样本包括,输入:1 个房子,输出:64 个房子 95 | 96 | ##### 3.4 模型训练细节: 97 | 98 | 800万个浏览日志行为,对应4000 万训练样本,700 万评估样本。 99 | 100 | 实际落地技巧(下面6个小店是引自原文加入我的理解): 101 | 102 | 1. 过滤掉停留时长太短的点击行为。很好理解,这种行为不足以当做正样本,也不满足负样本,所以过滤掉 103 | 2. 过滤掉点击数量太多的用户行为。我的理解是这种行为不能表示商品特征。我们想要的是什么样本呢?是一个用户看了十来个房子,然后点击进入,觉得不错,下单了。如果这个用户频繁点击,说明这个用户不是在一个正常的搜索房源的行为下。 104 | 3. 上下文不能太长: +/-2 个点击,行为间隔 <30 分钟(时间这个我上面说过了) 105 | 4. 下单参与到用户当天所有上下文中。我的理解是确保每个序列都可以有正样本。 106 | 5. 对于负采样,一定要采样用户跳过没点的房子,数量不能比正样本多太多。这种样本能更好的表达负样本信息 107 | 6. 一定要采样同目的地的其他房子,数量和用户跳过房子相当 108 | 109 | ##### 3.5 冷启动问题: 110 | 111 | 1. 找到与新上房子最接近的房子小集合,对小集合中的 Embedding 向量求均值作为该新房子的 Embedding 向量。其实这个方法还是很普遍的,一般来说对于embedding的冷启动或多或少会采用这个方法 112 | 113 | 2. 小集合确定方法:在距离,房型,价格,图片分,面积,人数等已有数据方面尽量接近。感觉这个方式相当于相当于在一个小范围上做一个相似度的判定 114 | 115 | ##### 3.6Embedding 的迭代更新 116 | 117 | 很有意思,不是重新训练,而是加载上一次参数,对2个月内新样本进行训练,相当于预训练。测试表示,这样比重新从初始化训练更快收敛。 118 | 119 | 120 | 121 | 打完收工,点个在看!!感谢!! 122 | 123 | 文章放在了这里: 124 | 125 | https://github.com/DA-southampton/Tech_Aarticle 126 | 127 | 所有模型实战的文章都在放这里了,涉及到的部署,推理,搜索,推荐等等,大概长这个丑样(哭了): 128 | 129 | 130 | 131 | 参考: 132 | 133 | Embedding技术在民宿推荐中的应用 134 | 135 | https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247491647&idx=1&sn=787f20dad8e613c0f72142df6789d91d&chksm=fbd75253cca0db45abed1a13b555f358ce059b4e9477afaeb872cab12d4fc310f119d65f797a&scene=27#wechat_redirect 136 | 137 | -------------------------------------------------------------------------------- /images/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/DA-southampton/Tech_Aarticle/790322142e32ea5d60eb3ea1ee3000b9e1bc7421/images/.DS_Store -------------------------------------------------------------------------------- /images/wechat.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/DA-southampton/Tech_Aarticle/790322142e32ea5d60eb3ea1ee3000b9e1bc7421/images/wechat.png --------------------------------------------------------------------------------