├── Adversarial_Example
├── CVPR2021.md
├── CVPR2022.md
└── General_methods.md
├── Day
├── 2022
│ ├── 202205.md
│ ├── 202206.md
│ ├── 202207.md
│ ├── 202208.md
│ ├── 202209.md
│ ├── 202210.md
│ └── 202211.md
├── 2023
│ └── 202302.md
└── 2024
│ └── 202401.md
├── Linux_commands.md
├── Paper_Reading
├── 2022.md
├── 2023.md
├── 2024.md
├── Nature.md
├── adversarial attack.md
├── adversarial defense.md
├── backdoor attack.md
├── best_paper.md
├── best_paper_of_CVPR.md
├── dataset.md
├── deepfake detection.md
└── survey.md
├── Paper_Writting
├── Figure_gallery_for_reference.md
├── bibliography.bib
├── checklist.md
├── 关于cover letter.md
└── 规范ML论文结构.md
├── README.md
├── Tools
├── code_clip.md
├── cropAndRename.py
├── draw_inMatlab.md
├── image_PCA.md
├── sign.md
└── ssimAndpsnr.py
├── assets
└── paperWritting
│ ├── 20231017101123.png
│ ├── 20231019093125.png
│ ├── 20231019093456.png
│ ├── 20231019093647.png
│ ├── 20231019093737.png
│ ├── 20231019094728.png
│ ├── 20231024214232.png
│ ├── 20231027160155.png
│ ├── 20231113170315.png
│ └── 20240805092946.png
├── design.md
└── 名词解释.md
/Adversarial_Example/CVPR2021.md:
--------------------------------------------------------------------------------
1 | ## 论文列表
2 | 1. Adversarial Robustness Across Representation Spaces
3 | 2. Architectural Adversarial Robustness: The Case for Deep Pursuit
4 | 3. Class-Aware Robust Adversarial Training for Object Detection
5 | 4. Robust and Accurate Object Detection via Adversarial Learning
6 | 5. LiBRe: A Practical Bayesian Approach to Adversarial Detection
7 | 6. BASAR:Black-box Attack on Skeletal Action Recognition
8 | 7. Adversarial Laser Beam: Effective Physical-World Attack to DNNs in a Blink
9 | 8. Explaining Classifiers using Adversarial Perturbations on the Perceptual Ball
10 | 9. MaxUp: Lightweight Adversarial Training with Data Augmentation Improves Neural Network Training
11 | 10. Natural Adversarial Examples
12 | 11. IoU Attack: Towards Temporally Coherent Black-Box Adversarial Attack for Visual Object Tracking
13 | 12. Anti-Adversarially Manipulated Attributions for Weakly and Semi-Supervised Semantic Segmentation
14 | 13. Exploring Adversarial Fake Images on Face Manifold
15 | 14. QAIR: Practical Query-efficient Black-Box Attacks for Image Retrieval
16 | 15. Simulating Unknown Target Models for Query-Efficient Black-box Attacks
17 | 16. SurFree: a fast surrogate-free black-box attack
18 | 17. VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples
19 | 18. Adversarial Imaging Pipelines
20 | 19. Over-the-Air Adversarial Flickering Attacks against Video Recognition Networks
21 | 20. Universal Spectral Adversarial Attacks for Deformable Shapes
22 | 21. On the Difficulty of Membership Inference Attacks
23 | 22. Invisible Perturbations: Physical Adversarial Examples Exploiting the Rolling Shutter Effect
24 | 23. Adversarial Generation of Continuous Images
25 | 24. Can audio-visual integration strengthen robustness under multimodal attacks?
26 | 25. Delving into Data: Effectively Substitute Training for Black-box Attack
27 | 26. Dual Attention Suppression Attack: Generate Adversarial Camouflage in Physical World
28 | 27. Enhancing the Transferability of Adversarial Attacks through Variance Tuning
29 | 28. Prototype-supervised Adversarial Network for Targeted Attack of Deep Hashing
30 | 29. Understanding the Robustness of Skeleton-based Action Recognition under Adversarial Attack
31 | 30. Backdoor Attacks Against Deep Learning Systems in the Physical World
32 | 31. Adversarial Robustness under Long-Tailed Distribution
33 | 32. Improving Transferability of Adversarial Patches on Face Recognition with Generative Models
34 | 33. You See What I Want You to See: Exploring Targeted Black-Box Transferability Attack for Hash-based Image Retrieval Systems
35 | 34. Adversarial Invariant Learning
36 | 35. LAFEAT: Piercing Through Adversarial Defenses with Latent Features
37 | 36. Regularizing Neural Networks via Adversarial Model Perturbation
38 | 37. The Translucent Patch: A Physical and Universal Attack on Object Detectors
--------------------------------------------------------------------------------
/Adversarial_Example/CVPR2022.md:
--------------------------------------------------------------------------------
1 | 1. Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity
2 | 2. WarpingGAN:Warping Multiple Uniform Priors for Adversarial 3D Point Cloud Generation
3 | 3. Cross-Modal Transferable Adversarial Attacks from Images to Videos
4 | 4. Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity
5 | 5. Adversarial Eigen Attack on Black-Box Models
6 | 6. Towards Efficient Data Free Black-box Adversarial Attack
7 | 7. Can You Spot the Chameleon? Adversarially Camouflaging Images from Co-Salient Object Detection
8 | 8. Robust Combination of Distributed Gradients Under Adversarial Perturbations
9 | 9. Shape-invariant 3D Adversarial Point Clouds
10 | 10. Self-supervised Learning of Adversarial Examples: Towards Good Generalizations for Deepfake Detection
11 | 11. Shadows can be Dangerous: Stealthy and Effective Physical-world Adversarial Attack by Natural Phenomenon
12 | 12. Fairness-aware Adversarial Perturbation Towards Bias Mitigation for Deployed Deep Models
13 | 13. Boosting Black-Box Attack with Partially Transferred Conditional Adversarial Distribution
14 | 14. Improving the Transferability of Targeted Adversarial Examples through Object-Based Diverse Input
15 | 15. Exploring Frequency Adversarial Attacks for Face Forgery Detection
16 | 16. Improving Adversarial Transferability via Neuron Attribution-Based Attacks
17 | 17. Transferable Sparse Adversarial Attack
18 | 18. Segment and Complete: Defending Object Detectors against Adversarial Patch Attacks with Robust Patch Detection
19 | 19. Stochastic Variance Reduced Ensemble Adversarial Attack for Boosting the Adversarial Transferability
20 | 20. Two Coupled Rejection Metrics Can Tell Adversarial Examples Apart
21 | 21. Protecting Facial Privacy: Generating Adversarial Identity Masks via Style-robust Makeup Transfer
22 | 22. Localized Adversarial Domain Generalization
23 | 23. BppAttack: Stealthy and Efficient Trojan Attacks against Deep Neural Networks via Image Quantization and Contrastive Adversarial Learning
24 | 24. Bounded Adversarial Attack on Deep Content Features
25 | 25. Give Me Your Attention: Dot-Product Attention Considered Harmful for Adversarial Patch Robustness
26 | 26. Fingerprinting Deep Neural Networks Globally via Universal Adversarial Perturbations
27 | 27. DST: Dynamic Substitute Training for Data-free Black-box Attack
28 | 28. Quarantine: Sparsity Can Uncover the Trojan Attack Trigger for Free
29 | 29. Backdoor Attacks on Self-Supervised Learning
30 | 30. Exploring Effective Data for Surrogate Training Towards Black-box Attack
31 | 31. 360-Attack: Distortion-Aware Perturbations from Perspective-Views
32 | 32. FIBA: Frequency-Injection based Backdoor Attack in Medical Image Analysis
33 | 33. Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks
34 | 34. Bandits for Structure Perturbation-based Black-box Attacks to Graph Neural Networks with Theoretical Guarantees
35 | 35. Appearance and Structure Aware Robust Deep Visual Graph Matching: Attack, Defense and Beyond
36 | 36. DEFEAT: Deep Hidden Feature Backdoor Attacks by Imperceptible Perturbation and Latent Representation Constraints
37 | 37. DTA: Physical Camouflage Attacks using Differentiable Transformation Network
38 | 38. Zero-Query Transfer Attacks on Context-Aware Object Detectors
39 | 39. Label-Only Model Inversion Attacks via Boundary Repulsion
40 | 40. Investigating Top-$k$ White-Box and Transferable Black-box Attack
--------------------------------------------------------------------------------
/Adversarial_Example/General_methods.md:
--------------------------------------------------------------------------------
1 | ## privious works提到过的一些通用方法
2 | 1. Robust Physical-World Attacks on Deep Learning Visual Classification(CVPR 2018)
3 | 这篇文章中提出了一种two-stage的评估方法:
4 | + Stationary (Lab) Tests:这种方法评估静止时,相机位置固定时对image的分类;
5 | + Drive-By (Field) Tests:相机是移动的,模拟自动驾驶的场景,因此相机对同一个物体,会捕获很多张image,这种方式评估动态场景下的分类。
6 | 2. Synthesizing Robust Adversarial Examples(ICLR 2018)
7 | 这篇文章提出EOT方法,用来考虑从digital setting到physical setting转变时的因素,如失真、形变、光照等。被很多文章follow。
8 |
--------------------------------------------------------------------------------
/Day/2022/202205.md:
--------------------------------------------------------------------------------
1 | # 20220512
2 | ## AI 安全与隐私相关研究
3 | ### 视频相关算法的攻击与防御
4 | ### 深度模型的版权保护(添加模型水印,设置model的后门等)
5 | # 20220527
6 | ## 李沐分享paper:Masked Autoencoders Are Scalable Vision Learners
7 | 1. paper的title: xxx 是 xxx。最近比较流行的一个格式
8 | 2. introducton部分:提问题、解答问题、提出想法。讲清楚为什么这样做,否则就很像技术报告
9 | # 20220527
10 | ## 李沐分享:如何判断(你自己的)研究工作的价值
11 | 1. 用有新意的方法有效地解决一个研究问题
12 | 2. 研究:问题分为工程类问题和研究性问题
13 | 3. 有效:相对于之前的工作有效性有提升
14 | 4. 新意:对做同样工作的研究者来说,没有用过
15 | 5. 价值 = 问题大小 x 新意度 x 有效性
16 | ## 李沐分享:如何读论文
17 | 1. 第一遍:读title、abstract和conclusion。读完知道这篇论文在讲什么。判断是不是适合自己。
18 | 2. 第二遍:整个文章过一遍。无需太注意细节,对各个部分有大概的了解。判断是不是需要精读。
19 | 3. 第三遍:知道每一段、每一句话在说什么。思想如果我来做会怎么样。
20 |
--------------------------------------------------------------------------------
/Day/2022/202206.md:
--------------------------------------------------------------------------------
1 | # 20220602
2 | ## 李沐分享:如何找研究想法
3 | ### 打补丁法
4 | 1. 简言之,读paper时思想哪些地方可以改进。如果我来做,可以怎么做
5 | 2. 打的补丁需要可以用一个故事串起来
6 | 3. 选paper打补丁:选比较新的文章,脑洞比较大的paper,掂量自己能否有能力做paper中的工作
7 | ## 研究与论文
8 | 1. 科学研究:发现问题;找到内在本质和规律;解决方案
9 | 2. 要用一个段落描述为什么这么做
10 | 3. 想做一个比较快的工作,需要发现新的问题
11 | # 20220627
12 | ## 李沐分享:如何判断(你自己的)研究工作的价值
13 | ### 总结:用有新意的方法有效地解决一个研究问题
14 | 1. 新意
15 | 2. 有效
16 | 3. 研究
17 | ### 工程问题 vs. 研究问题
18 | ### 新意度 X 有效性 X 问题大小 = 价值
--------------------------------------------------------------------------------
/Day/2022/202207.md:
--------------------------------------------------------------------------------
1 | # 20220704
2 | ## 视频理解
3 | 1. 双流网络、3D卷积神经网络、video transformer
4 | 2. 视频本身是一种多模态的数据,相比于图片,更适合作为data去训练神经网络
5 | # 20220719
6 | ## 研究的艺术:The Craft of Research
7 | 1. 跟读者建立联系: 在写paper的时候,想象对面坐着一个中学生,你在把自己的工作介绍给他们。
8 | 2. 明白问题的重要性:问一问so what?即:在开始做一个工作之前,问一问我把这个问题完美的解决了,那又怎么样?会不会很多人关心,会不会推动领域发展。在paper中要写清楚:①研究领域的现状是什么;②不解决的话后果是什么。
9 | 3. 讲好故事、论点:论文写作的终极目的是让读者信服。不要说得过于绝对,例如all, no one, every, always, never等词避免使用
10 | 4. 理由、证据、担保:对证据的描述要准确,some, many, usually, most, almost, often, frequently, generally等词要尽量避免使用。
11 | # 20220727
12 | ## “人工智能安全与隐私”系列论坛首期
13 | ### AI安全与隐私的内涵、研究对象与研究范围
14 | 1. 网络结构的安全:当前的网络,设计时的目标是效果达到sota,却没有考虑到安全性这个因素。
15 | 2. 人工智能安全与隐私:可解释性、公平性、鲁棒性、隐私保护。
16 | 3. 智能时代,数据就是能源动力。就像刚开始开采传统化石能源的时候,没有考虑污染等问题,现在对于数据的使用也存在类似的消极问题。
17 | 4. 人工智能病毒:相比于互联网时代的网络病毒。
18 | ### AI安全与隐私的重要研究意义,可能带来的影响和未来趋势
19 | 1. 软硬件结合来应对安全问题
20 | 2. 数据安全
21 | 3. model给出的结果,model给出这样结果的原因
22 | 4. 对抗样本是一种特殊的数据分布:domain generation
23 | ### AI安全与隐私在工业界的发展现状和意义
24 | 1. 工业界甚至比学术界更重视AI的安全
25 | 2. 银行业需要AI安全:物联网金融
26 | 3. 安全经济学
27 | 4. 什么叫人类视觉不可察觉
28 |
--------------------------------------------------------------------------------
/Day/2022/202208.md:
--------------------------------------------------------------------------------
1 | # 20220817
2 | ## “人工智能安全与隐私”系列论坛第二期
3 | 1. 基于梯度的攻击:FGSM Attack
4 | 2. 基于优化的攻击:C&W Attack
5 | 3. 基于模型的攻击:AdvGAN
6 | 4. 基于迁移的攻击:PBBA
7 | 5. 对语音识别任务的攻击
8 | 6. 对强化学习的攻击
9 | # 20220824
10 | ## “人工智能安全与隐私”系列论坛第三期
11 | 1. DeepFake detection
12 | 2. 吕思伟教授报告
13 | 3. 利用PS这类软件修改人脸,现有方法可以检测吗
14 | 4. 现在这种造假是否都是基于CNN
15 | 5. DeepFake detection的泛化性问题
16 | # 20220825
17 | ## “人工智能安全与隐私”系列论坛第四期
18 | ### The Transfer-based Black-box Attack Method
19 | 1. 北航韦星星教授
20 | 2. 基于spatial momentum的迁移性增强方法
21 | 3. 基于生成式网络的高迁移性对抗样本生成方法
22 |
--------------------------------------------------------------------------------
/Day/2022/202209.md:
--------------------------------------------------------------------------------
1 | # 20220901
2 | ## “人工智能安全与隐私”系列论坛第七期
3 | ### 可信人脸识别与分析
4 | 1. 北邮邓伟洪教授
5 | 2. 可信的条件:①精准(Ultimately accuracy);②超越准确率(Beyond accuracy),包括三个维度:Robustness, Security, Fairness;③超越识别(Beyond identification),例如表情体现的情绪
6 | # 20220927
7 | ## “人工智能安全与隐私”系列第五期:Towards Robust Representation and Beyond
8 | 1. context adversarial attack: 在猴子图片上添加吉他,模型将猴子识别为人
9 | 2. 图钉理论:视野开阔,聚焦一点
10 | # 20220928
11 | ## “人工智能安全与隐私”系列第六期:Dissecting Adversarial Robustness of DNNs
12 | 1. 思考:如何表示model的决策边缘(decision boundary)
13 | 2. 反向推测:根据attack的结果,反过来推测attacker的意图是什么
14 | 3. Active research areas: algorithm, theory, application, architecture, dataset
15 | # 20220930
16 | ## "人工智能安全与隐私"系列第八期: 博弈交互理论框架下深度学习的可解释性分析
17 | 1. 可解释性博弈交互体系:对归因权重、鲁棒性、泛化性、视觉概念和美观性的统一
18 | 2. AI可解释性相关论文:
19 | [1]. Analysis of Explainability of Deep Learning Models for Medical Applicability
20 | [2]. Net2vec: Quantifying and explaining how concepts are encoded by filters in deep neural networks
21 | [3]. Interpreting multivariate shapley interactions in dnns
22 | [4]. Interpreting cnn knowledge via an explanatory graph
23 | 3. 美观性:A Hypothesis for the Aesthetic Appreciation in Neural Networks
--------------------------------------------------------------------------------
/Day/2022/202210.md:
--------------------------------------------------------------------------------
1 | # 20221001
2 | ## "人工智能安全与隐私"系列第九期:AI安全风险分析与测试修复-西交沈超教授
3 | 1. AI技术面临安全隐患:AI合成奥巴马讲话(深度伪造)、Facebook干预大选、虚假语音、自动驾驶系统事故、种族偏见等。
4 | 2. 传感器欺骗
5 | 3. 数据预处理阶段的攻击
6 | # 20221004
7 | ## AI安全与隐私论坛第十期: UIUC李博教授-基于逻辑推理的可信赖机器学习
8 | 1. deep learning in the physical world
9 | 2. lidar和radar下的攻击
10 | 3. reasoning model
11 | 4. PrimateNet
12 | 5. the shapley value
13 | 6. generalization
14 | 7. 逻辑和deep learning的结合
15 | 8. transformer的robustness
16 | 9. 如何衡量物理攻击的隐蔽性(stealthiness):心理学;主观;定义一些规则
17 | 10. 鲁棒性和泛化性的关系
18 | # 20221006
19 | ## AI安全与隐私论坛第11期-清华大学崔鹏教授-稳定学习:寻找因果推理和机器学习之间的共同点
20 | 1. risk-sensitive areas
21 | 2. Problems of today's ML: Explainability、Stability(OOD Generalization Problem)、Fairness
22 | 3. causal inference
23 | 4. Trustworthy AI
24 | 5. 因果推理对AI Explainability的研究
25 | # 20221007
26 | ## AI安全与隐私论坛第12期-密歇根州立大学汤继良教授-可信人工智能中的鲁棒性和公平性可以兼得吗
27 | 1. Trustworthy AI: to be Robust or to be Fair.
28 | 2. Paper: To be Robust or to be Fair: Towards Fairness in Adversarial Training
29 | 3. Fairness: 性别;种族;人脸识别
30 | 4. Robustness和Fairness的关系:
31 | ① 系统的安全性是由最短板决定的(木桶效应)
32 | ② improving adversarial robustness can cause fairness issues.
33 | ③ Fairness training can make AI models more vulnerable.
34 | 5. 人体的免疫系统
35 | 6. Paper: Trustworthy AI: A Computational Perspective.
36 | # 20221008
37 | ## AI安全与隐私论坛第13期-复旦教授与腾讯专家-AI安全和模型版权保护
38 | 1. AI模型版权保护
39 | 2. Papers:
40 | ① Stealing Machine Learning Models via Prediction APIs
41 | ② Practical Black-Box Attacks against Machine Learning
42 | ③ Knockoff Nets: Stealing Functionality of Black-Box Models
43 | ④ MAZE: Data-Free Model Stealing Attack Using Zeroth-Order Gradient Estimation
44 | ⑤ Embedding Watermarks into Deep Neural Networks
45 | ⑥ Protecting Intellectual Property of Deep Neural Networks with Watermarking
46 | ⑥ IPGuard: Protecting Intellectual Property of Deep Neural Networks via Fingerprinting the Classification Boundary
47 | ⑦ Deep Neural Network Fingerprinting by Conferrable Adversarial Examples
48 | ⑧ ES Attack: Model Stealing against Deep Neural Networks without Data Hurdles
49 | 3. 采用backdoor attack进行模型的版权保护
50 | 4. 图像视频的篡改检测,吴祖煊,复旦大学
51 | 5. PyDeepFakeDet
52 | # 20221008
53 | ## AI安全与隐私论坛第14期-浙江大学纪守领教授-针对特征归因算法的鲁棒性评估框架
54 | 1. AI Security: AI's Security and AI for Security
55 | 2. Adversarial Attack and Defence
56 | 3. paper: SirenAttack: Generating Adversarial Audio for End-to-End Acoustic Systems
57 | 4. paper: TextBugger: Generating Adversarial Text Against Real-world Applications
58 | 5. paper: Transfer Attacks Revisited: A Large-Scale Empirical Study in Real Computer Vision Settings
59 | 6. 活体检测安全性分析
60 | 7. 同时攻击分类和CAM
61 | 8. 特征归因算法
62 | 9. 从系统层面考虑对抗攻防(安全性问题):整个系统不光是模型,还有别的环节
63 | # 20221010
64 | ## AI安全与隐私论坛第15期:杜克大学Neil Gong-AI模型及衍生品的版权交易与保护
65 | 1. Machine Learning Pipeline
66 | 2. Stealing Attack(training data, model, weight, parameter)
67 | 3. paper: Stealing Hyperparameters in Machine Learning
68 | 4. paper: Stealing Links from Graph Neural Networks
69 | 5. paper: StolenEncoder: Stealing Pre-trained Encoders in Self-supervised Learning
70 | 6. Fingerprinting Models
71 | 7. paper: IPGuard: Protecting Intellectual Property of Deep Neural Networks via Fingerprinting the Classification Boundary
72 | 8. EncoderMI: Membership Inference against Pre-trained Encoders in Contrastive Learning
73 | 6. 腾讯AI大模型:刘威
74 | 7. 生成性AI的机遇与挑战:版权保护,安全(虚假信息等)
75 | 8. AI版权问题:传统的版权(模型、数据等);生成内容的版权
76 | # 20221010
77 | ## AI安全与隐私论坛第16期:天津大学韩亚洪教授-视觉深度模型的对抗鲁棒性与黑盒攻击
78 | 1. Decision-based Attack
79 | 2. paper: Query-efficient Black-box Adversarial Attack with Customized Iteration and Sampling
80 | 3. paper: Towards Transferable Adversarial Attacks on Vision Transformers
81 | 4. paper: Decision-based Black-box Attack Against Vision Transformers via Patch-wise Adversarial Removal
82 | 5. 联邦学习
83 | 6. paper: Machine behaviour
84 | 7. paper: Boosting Black-Box Attack with Partially Transferred Conditional Adversarial Distribution
85 | # 20221021
86 | ## 报告题目:如何写好一个Rebuttal
87 | 1. [video 1](https://www.bilibili.com/video/BV1Ur4y1e7eX/?vd_source=6a269b59959fce1049e36a1aac54747c)
88 | 2. [video 2](https://www.bilibili.com/video/BV1R5411f7N2/?vd_source=6a269b59959fce1049e36a1aac54747c)
89 | 3. [video 3](https://www.bilibili.com/video/BV1944y1W7v1/?vd_source=6a269b59959fce1049e36a1aac54747c)
90 | # 20221026
91 | ## AI安全与隐私论坛第17期: 利用前向-反向的信息差异防御基于分数的查询攻击
92 | 1. noise in sampling: label noise; measuring noise, backdoor attack
93 | 2. noise in training: Byzantian attack
94 | 3. noise in new data: measuring moise, adversarial attack
95 | # 20221031
96 | ## 青源Talk第20期丨可信机器学习之机器学习与知识推理相结合
97 | 1. 兴趣 + 跳出领域思考我们做的这些work有什么联系
--------------------------------------------------------------------------------
/Day/2022/202211.md:
--------------------------------------------------------------------------------
1 | # 20221108
2 | ### 智能信息伪装
3 | 1. [link](https://www.bilibili.com/video/BV1xN411Z7Tt/?spm_id_from=333.999.0.0&vd_source=6a269b59959fce1049e36a1aac54747c)
4 | 2. 智能信息伪装: 信息隐藏,内容伪造
5 | 3. JPEG隐写
6 | 4. 隐写的根本追求是:与某个正常行为不可区分
7 | 5. DeepFake技术与DeepFake防御技术
8 | # 20221229
9 | ## AI安全与隐私论坛第18期: 可信联邦学习及版权保护
10 | 1. AI创作的内容版权属于谁
11 | 2. 模型的保护(验证被窃取的模型是我的模型,模型的版权问题)、数据的保护
12 | 3. 可信联邦学习:trustworthy federated learning
13 | 4. AI4密码学;密码学4AI
--------------------------------------------------------------------------------
/Day/2023/202302.md:
--------------------------------------------------------------------------------
1 | # 20230214
2 | ## Nature子刊投稿经验分享
3 | 视频链接:https://www.bilibili.com/video/BV1vg411B7hc/?spm_id_from=333.880.my_history.page.click&vd_source=ac6afd6c67f95dd72f514d9568380323
4 | 经验:
5 | 关心novelty
6 | Introduction要精心修改,先过编辑这一关才送审。时间大概两周。
7 | 一个月后reviewer给回复
8 | 技术要写的精细,但是不要写的太大(吹)。
9 | 避免diss别人的工作,但可以比较,写作要合适。
10 | # 20230215
11 | ## Nature子刊投稿经验分享
12 | 视频链接:https://www.bilibili.com/video/BV1914y1j7rh/?spm_id_from=333.337.search-card.all.click&vd_source=ac6afd6c67f95dd72f514d9568380323
13 | 经验:
14 | 150的rebuttal letter。
15 |
--------------------------------------------------------------------------------
/Day/2024/202401.md:
--------------------------------------------------------------------------------
1 | # 20240116
2 | ### CSIG云课堂: Physics Modelling for Outdoor Computer Vision (尤少迪)
3 | #### 一、Towards Bad weather
4 | 1. 任务:Raind removal
5 | 2. How to get data? 真实数据难以收集,用physics对雨水的形态进行建模,生成虚拟数据集。
6 | 3. What can be benefited from machine learning? DNN强大的建模能力可以用来解决这些任务。
7 | 4. 任务:Dehazing
8 | 5. How to get data? 完全一致的数据对难以采集。Synthetic Dataset。
9 | 6. What can be benefited from machine learning? 用语义指导颜色先验。
10 | 7. What can be benefited from physics? 傅里叶变换提取物理特征作为机器学习的特征。
11 | #### 二、Paper: Dataset for Nighttime Rain Streak Removal
12 | 1. 雨会和光源互动,而现有数据集没有考虑。
13 | 2. 雨水和光的互动是local的,例如红光附近的雨是红色的。
14 | #### 三、Weather prediction with uncertainty
15 | 1. 同一个场景可能出现若干种天气。把天气作为一种概率。
16 | 2. 针对这个问题,做了一个数据集:同一种场景出现各种不同的天气。
17 | #### 四、Underwater Depth Estimation
18 | 1. 使用stable diffusion做这个任务。
19 | 2. 用stable diffusion生成数据集,提出新方法。
20 | #### 五、提问
21 | 1. 仿真平台推荐:GTA,Unity,直接用python等。
--------------------------------------------------------------------------------
/Linux_commands.md:
--------------------------------------------------------------------------------
1 | ## 文件传输
2 | 1. 一台机器上的复制
3 | ````
4 | $ cp -i file1 file2
5 | 将文档 file1复制成file2,复制后名称被改file2
6 |
7 | $ cp -i file1 dir1
8 | 将文档 file1复制到dir1目录下,复制后名称仍未file1
9 |
10 | $ cp -r dir1 dir2
11 | 将目录dir1下的所有文件复制到dir2目录下,复制结果目录被改名为dir2
12 | 2. 跨机器的文件传输
13 | ````
14 | $ scp local_file remote_username@remote_ip:remote_folder
15 | $ scp /home/space/music/1.mp3 root@www.runoob.com:/home/root/others/music
16 | 从本地复制到远程
17 |
18 | $ scp root@www.runoob.com:/home/root/others/music /home/space/music/1.mp3
19 | 从远程复制到本地,调换顺序即可
20 |
21 | $ rsync -P --rsh=ssh local_file remote_username@remote_ip:remote_folder
22 | 传大文件时,失败了可以继续传
23 | 3. 传文件夹
24 | ````
25 | scp -r /tmp/local_dir remote_username@remote_ip:remote_dir
26 | 从本地上传到指定机器的文件夹下
27 | ## 文件解压缩
28 | 1. zip文件
29 | ````
30 | $ zip -r myfile.zip ./*
31 | 将当前目录下的所有文件和文件夹全部压缩成myfile.zip文件,-r表示递归压缩子目录下所有文件.
32 |
33 | $ unzip -o -d /home/sunny myfile.zip
34 | 把myfile.zip文件解压到 /home/sunny/
35 | 2. tar.gz文件
36 | ````
37 | $ tar -tzvf file.tar.gz
38 | 查看tar包内包含的文件
39 |
40 | $ tar -zxvf file.tar.gz foder/access.log.0805
41 | 解压单个文件
42 |
43 | $ tar -zxvf file.tar.gz foder/access.log.*
44 | 解压多个文件
45 |
46 | $ tar -xzvf file.tar.gz foder/access.log.0805 -C /new/dir/
47 | -C 指定解压到的目录.
48 | ## 查看
49 | 1. 查看磁盘的使用情况
50 | ````
51 | $ df -h
52 | 2. 查看文件大小
53 | ````
54 | $ ls -l filename
55 | 3. 查看当前文件夹占磁盘空间大小
56 | ````
57 | $ du -sh
58 | 4. 查看当前目录下的文件数量(不包含子目录中的文件)
59 | ````
60 | $ ls -l|grep "^-"| wc -l
61 | 5. 查看当前目录下的文件数量(包含子目录中的文件) 注意:R,代表子目录
62 | ````
63 | $ ls -lR|grep "^-"| wc -l
64 | 6. 查看当前目录下的文件夹目录个数(不包含子目录中的目录),同上述理,如果需要查看子目录的,加上R
65 | ````
66 | $ ls -l|grep "^d"| wc -l
67 | 7. 查看当前目录下.jpg文件的数量
68 | ````
69 | $ ls -lR | grep "jpg" | wc -l
70 | 8. ncdu命令
71 | ````
72 | $ sudo apt install ncdu
73 | Ubuntu下安装
74 | $ ncdu
75 | 扫描当前目录,并且按照文件及文件夹占用大小,从大到小排列
76 | $ d
77 | 删除文件
78 | $ q
79 | 退出
80 | $ ?
81 | 快捷键提示
82 | $ ncdu 目录
83 | 扫描指定目录的信息
84 | ## 复制、移动和删除
85 | 1. 文件夹
86 | ````
87 | $ cp -r dir1 dir2
88 | dir2目录不存在,可以直接使用
89 |
90 | $ rm -rf dir
91 |
92 | $ mv info/ logs
93 | 将 info 目录放入 logs 目录中。注意,如果 logs 目录不存在,则该命令将 info 改名为 logs。
94 | 2. 文件
95 | ````
96 | $ cp -i filename dir1
97 | $ rm -f filename
98 | $ mv aaa bbb
99 | ## tmux的使用
100 | 1. 查看会话
101 | ````
102 | $ tmux ls
103 | # or
104 | $ tmux list-session
105 | ````
106 | 2. 接入会话
107 | ````
108 | # 使用会话编号
109 | $ tmux attach -t 0
110 |
111 | # 使用会话名称
112 | $ tmux attach -t
113 | ````
114 | 3. 退出会话
115 | ````
116 | # 退出会话
117 | 键盘: ctrl + b, 然后键盘: d
118 |
119 | # 退出并杀死会话
120 | $ exit
121 | ````
122 | 4. 杀死会话
123 | ````
124 | # 使用会话编号
125 | $ tmux kill-session -t 0
126 |
127 | # 使用会话名称
128 | $ tmux kill-session -t
129 | ````
130 | 5. 新建会话
131 | ````
132 | tmux new -s
133 | ````
134 | ## conda相关命令
135 | 1. 创建环境
136 | ````
137 | conda create -n your_env_name python=X.X
138 | 2. 删除环境
139 | ````
140 | conda remove -n your_env_name --all
141 | 3. 查看环境
142 | ````
143 | conda info --env
--------------------------------------------------------------------------------
/Paper_Reading/2022.md:
--------------------------------------------------------------------------------
1 | # 1: 20220506
2 | ### Title: Convolutional Neural Networks Can Be Deceived by Visual Illusions
3 | ### Venue: CVPR 2019
4 | 这篇文章研究了视觉错觉(Visual Illusions)相关的内容,例如相同的颜色在不同的背景下,人类的视觉会错认为不同的颜色。实验发现CNN可以像人类视觉系统一样,也会有视觉错觉的现象。
5 | # 2: 20220507
6 | ### Title: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
7 | ### Venue: ICCV 2017
8 | 作者提出cyclegan来解决Unpaired Image-to-Image Translation问题,在训练GAN时,加入了Cycle Consistency Loss,模型不仅需要有能力translate X to Y,还要有能力translate Y to X。cyclegan被应用在多种任务中,有Object transfiguration,Season transfer,Photo generation from paintings等。
9 | # 3: 20220509
10 | ### Title: Learning to Structure an Image with Few Colors
11 | ### Venue: CVPR 2020
12 | 本文研究了在严格的color约束下,图片如何保留更多的structure。提出ColorCNN,基于autoencoder,目标是image在极其小的颜色空间,尽可能地被classifier正确识别。
13 | # 4: 20220509
14 | ### Title: Diverse Image-to-Image Translation via Disentangled Representations
15 | ### Venue: ECCV 2018
16 | 作者将image的解耦表达应用在Image-to-Image Translation,使其不再需要paired data做训练,同时增加了模型生成样本的多样性。提出DRIT方法。DRIT采用的仍然是GAN的结构,在其中加入了两个encoder,分别编码image的domain-invariant and domain-specific特征。
17 | # 5: 20220509
18 | ### Title: Multimodal Unsupervised Image-to-Image Translation
19 | ### Venue: ECCV 2018
20 | 本文提出 Multimodal Unsupervised Image-to-image Translation (MUNIT) 框架来解决image-to-image translation任务中,转换的结果缺少多样性的问题。MUNIT将一张image解耦为content feature和style feature,使得方法可以实现example-guided image translation。
21 | # 6: 20220510
22 | ### Title: Swapping Autoencoder for Deep Image Manipulation
23 | ### Venue: NIPS 2020
24 | 作者将image解耦为texture和structure,针对的任务是image manipulation。个人感觉与4和5做的工作非常相似。
25 | # 7: 20220513
26 | ### Title: 绘画艺术图像的计算美学: 研究前沿与展望
27 | ### Venue: 自动化学报 2020
28 | 曾任国际实验美学协会主席的 Leder 将人类的审美行为建模为多层次的信息处理模型, 包含潜意识和主观意识两方面过程。潜意识过程包含对颜色、对比度、复杂性等底层信息的感知, 以及对个人经历和记忆的整合, 缺乏显式的信息输出, 难以被量化建模. 而主观意识过程包含显示分类、认知和评价三部分, 具有可被量化的中间结果或审美输出, 可以作为绘画图像计算美学的梳理参考。
29 |
30 | 本文将主观意识过程(分类、认知和评价),对应属性识别、内容理解和美学评价的计算美学问题,以这个角度展开每一部分的介绍。
31 | # 8: 20220517
32 | ### Title: Improved Denoising Diffusion Probabilistic Models
33 | ### Venue: PMLR 2021
34 | 作者对DDPM做了一些改进,提高了采样速度,得到更好的log-likelihoods。
35 | # 9: 20220519
36 | ### Title: Masked Autoencoders Are Scalable Vision Learners
37 | ### Venue: CVPR 2022
38 | 这篇文章将NLP任务的BERT模型应用于CV任务。采用encoder-decoder的架构,encoder的输入是image上一些随机的patch(把原图一些部分盖住),decoder的输入是encoder的输出潜编码和原图中被遮住的patch。这篇文章提出的是一个backbone,可以将其应用到别的下流任务中,如目标检测。
39 | # 10: 20220528
40 | ### Title: ImageNet Classification with Deep Convolutional Neural Networks
41 | ### Venue: NIPS 2012
42 | 这是卷积神经网络的奠基之作,但现在看文章的写作有一些不美的地方,论文中的结论也有一些是不重要的。这个工作是在imagenet上做classification,在当年取得了非常好的效果,超过其余方法。惊奇的是,文章读起来很多名词依然是我们现在经常使用的,和读现在的paper相比没有违和感。
43 | # 11: 20220530
44 | ### Title: Cognitive Psychology for Deep Neural Networks: A Shape Bias Case Study
45 | ### Venue: PMLR 2017
46 | 作者尝试从认知心理学的角度去探究深度神经网络的bias。本文探测的是shape bias,文章通过实验观察到:相比于Color, one shot learning models更倾向于通过shape去判断object的类别。
47 | # 12: 20220530
48 | ### Title: Deep Residual Learning for Image Recognition
49 | ### Venue: CVPR 2016
50 | 作者提出了一个非常简单的深度卷积神经网络结构(残差链接),带来了非常大的效果提升。一定程度上解决了模型的效果随着网络深度增加而降低的问题。并且使得训练变得容易。深层原因:1. 因为残差结构,梯度变得打了,使SGD下降得更快也更有目标。2. 这种结构使得网络可以实现层数增加,但增加的层如果必要,可以对输入不做改变,一定程度上缓解了过拟合。
51 | # 13: 20220531
52 | ### Title: Attention Is All You Need
53 | ### Venue: NIPS 2017
54 | 本文提出了一个新的神经网络架构:transformer。它没有用到卷积神经网络和循环神经网络,只用到了注意力,在翻译任务上取得好的效果。transformer现在已经应用在多种任务上,包括自然语言处理和计算机视觉。
55 | # 14: 20220531
56 | ### Title: ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models
57 | ### Venue: ICCV 2021
58 | 作者使用训练好的diffusion model,在reverse过程加入了matching the latent variable of a given reference image,使得生成的结果与the given reference image有语义相似性,通过这种方式来控制diffusion model的生成结果。
59 | # 15: 20220601
60 | ### Title: A Gentle Introduction to Graph Neural Networks
61 | ### Venue: Distill 2021
62 | 这篇文章发表在Distill上面,主要介绍了Graph Neural Networks,包括以下内容:什么是Graph,如何把data表示为Graph,GNN如何处理data等。GNN和CNN是有一些相似的地方,比如pooling操作。文章有许多生动形象、可交互的图片。
63 | # 16: 20220602
64 | ### Title: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
65 | ### Venue: ICCV 2017
66 | 推荐代码仓库:https://github.com/jacobgil/pytorch-grad-cam. 本文的工作对于理解神经网络有很大的意义。本文工作在不需要改变神经网络结构也不需要重新训练的情况下,可视化出在某次任务中神经网络关注的区域在哪里,并且用热力图可视化出来。推荐代码仓库有许多类似方法在不同任务中的实现。
67 | # 17: 20220603
68 | ### Title: Generative Adversarial Nets
69 | ### Venue: NIPS 2014
70 | 生成对抗网络(GAN)的开创者。生成器、鉴别器等这些耳熟能详的词,在2014年提出来。时至今日,GAN已经有了很多改进,也在实验性能上取得了非常惊人的效果。GAN在生成样本的diversity方面存在不足,在生成速度和生成质量方面有优势。
71 | # 18: 20220604
72 | ### Title: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
73 | ### Venue: NAACL 2019
74 | BERT对NLP任务的影响是巨大的。本文提出在语言类学习任务中,双向信息的重要性。在BERT上做微调效果很好,为下流任务提供了很好的效果提升。在本篇论文的结论中最大贡献是双向性(在写一篇论文的时候,最好有一个卖点,而不是这里好那里也好)。缺点是:与GPT(Improving Language Understanding by Generative Pre-Training)比,BERT用的是编码器,GPT用的是解码器。BERT做机器翻译、文本的摘要(生成类的任务)不好做。完整解决问题的思路:在一个很大的数据集上训练好一个很宽很深的模型,可以用在很多小的问题上,通过微调来全面提升小数据的性能(在计算机视觉领域用了很多年),模型越大,效果越好(很简单很暴力)。
75 | # 19: 20220604
76 | ### Title: Text2Human: Text-Driven Controllable Human Image Generation
77 | ### Venue: SIGGRAPH 2022
78 | 本文的任务是生成包含human的image。在生成human穿的衣服的shape diversity和structure diversity上提出改进。本文的工作可以根据text生成对应样式的human image。生成human的衣服纹理这一块可以关注一下。采用的网络框架是VAE,构建了一个Hierarchical VQVAE。
79 | # 20: 20220606
80 | ### Title: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
81 | ### Venue: ICLR 2021 Oral
82 | 作者用NLP任务中的BERT模型,来解决视觉任务(分类),提出了ViT: Vision Transformer。ViT和BERT模型的思路、结构等都是几乎一样的,不同的是输入由word变为了image patch。作者通过实验得出结论:ViT需要在大规模的数据集上才能取得超越CNN的效果。这个工作打破了CV和NLP之间的鸿沟,使得用一个model同时处理word和image成为显示,也就是处理多模态数据的model。
83 | # 21: 20220607
84 | ### Title: Momentum Contrast for Unsupervised Visual Representation Learning
85 | ### Venue: CVPR 2020
86 | 一作Kaiming He,作者提出MoCo模型来学习特征,这些特征是通过无监督的对比学习获得的,学习到的特征可以迁移到下游任务中,比如分类和检测,效果可以媲美有监督学习的结果。该工作的官方代码写得非常好。
87 | # 22: 20220616
88 | ### Title: Competition-Level Code Generation with AlphaCode
89 | ### Venue: arxiv 202202
90 | 作者团队DeepMind,提出AlphaCode,可以自动写代码的模型。作者用该模型去做算法竞赛的题,实验表明可以打败一般的人类算法程序员。用的架构是encoder-decoder,用的模型是transfermer。
91 | # 23: 20220622
92 | ### Title: Advancing mathematics by guiding human intuition with AI
93 | ### Venue: Nature 202112 (DeepMind)
94 | 本文提出用机器学习的方法帮助数学家发现新的数学公式。X和Y是任意的两个数学物体,它俩之间是否有关系,是否值得数学家去探索,可以通过机器学习来验证。首先从X和Y中采样,得到数据集,然后用机器学习模型学习能够从X映射到Y,如果可以,再分析X中哪些样本是重要的,如果存在top的样本,数学家可以开始研究从X到Y的数学公式,并且重点关注X的top样本的属性。
95 | # 24: 20220623
96 | ### Title: Learning Invisible Markers for Hidden Codes in Offline-to-online Photography
97 | ### Venue: CVPR 2022
98 | 本文解决的是信息传递或者信息加密的任务。它将QR code嵌入到一张image中,人类视觉感受不到,但通过Localization network可以定位到该QR code的位置,然后decoder可以还原出QR code,获得信息。文章的pipeline包含encoder,distortion network, localization network, decoder。采用分阶段的训练策略。
99 | # 25: 20220624
100 | ### Title: End-to-end object detection with transformers
101 | ### Venue: ECCV 2020 (Facebook)
102 | 本文提出DETR,一个End-to-end的目标检测框架(之前的目标检测框架都很难做到End-to-end,需要NMS等)。DETR思想简单、实现简单、开源代码简洁优雅,检测效果达到了Faster RCNN的水平。它采用transformer的架构,引入object queries,相当于之前检测器种的anchor。在bounding box的匹配方面,用bipartite matching的思想来解决。(这篇文章中提到之前检测器的检测效果严重依赖一些初始猜想,具体见文章2.3部分)
103 | # 26: 20220625
104 | ### Title: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
105 | ### Venue: ICCV 2021 best paper (MSRA)
106 | 作者将transformer作为一个骨干网络,用到了各类视觉任务中,取得了SOTA。本文继ViT之后,验证了transformer可以在视觉任务中取得好的效果。同类工作比较有名的有VGG,ResNet等。Swin是Shifted Windows的简称,本文提出Swin来解决patch块之间通信的问题,使得transformer可以提取到全局特征,并且降低了计算复杂度。
107 | # 27: 20220627
108 | ### Title: Highly accurate protein structure prediction with AlphaFold
109 | ### Venue: Nature 202107
110 | 作者用transformer来预测人类蛋白质结构,达到了原子级别的误差。文章号称解决了50年来的一个难题。方法用了一个很复杂的网络结构。从本文工作可以看出transformer的流行度以及强大能力。
111 | # 28: 20220628
112 | ### Title: Learning Transferable Visual Models From Natural Language Supervision
113 | ### Venue: ICML 2021
114 | 这是一个开创性的工作CLIP,它用language特征去监督视觉任务,从而获得好的特征表示。文章显示在不适用imagenet数据集的情况下(zero-shot),在imagenet上做测试,效果和resnet50差不多。作者做了很多的实验。这个工作显示了多模态特征的潜力。网络用的是transformer。
115 | # 29: 20220628
116 | ### Title: Two-stream convolutional networks for action recognition in videos
117 | ### Venue: NIPS 2014
118 | 作者将卷积神经网络应用到处理视频数据的任务中(动作识别),之前有人尝试这么做,但并不work,作者提出了Two-stream网络,一个学习RGB图像的特征,一个学习光流的特征。(ps.光流指图像在时序维度上的变化情况)。通过这样的架构,作者成功达到了手工特征的精度,显示了深度学习在处理视频数据方面的潜力。Two-stream网络带来的启发:当model不work的时候,可以从数据端去考虑,例如本文的做法是直接给model提供抽出来的光流信息,以此让model学习时序维度的特征。
119 | # 30: 20220629
120 | ### Title: Scaling Distributed Machine Learning with the Parameter Server
121 | ### Venue: OSDI 2014 (李沐)
122 | 作者为大规模的分布式机器学习设计了一个通用的系统,使得机器学习算法在面对这种大的数据量的任务时,可以更好地运行。由于文章属于系统方向和机器学习方向的交叉,在写作上值得借鉴。(ps.在paper中,如何向读者介绍一个技术:假设你的对面坐着一个非计算机专业人员,你要向他介绍,代入这样的角色进行写作)
123 | # 31: 20220630
124 | ### Title: Language Models are Few-Shot Learners
125 | ### Venue: Arxiv 202006 (OpenAI)
126 | 本文提出一个语言模型GPT-3,它的学习参数有1700亿,同时训练的数据集也非常大。本文工作是延续GPT和GPT-2,也就是只用transformer网络的解码器,而BETR(Bidirectional Encoder Representations from Transformers)用的是编码器(两种不同的解决方案)。
127 | # 32: 20220701
128 | ### Title: Evaluating Large Language Models Trained on Code
129 | ### Venue: Arxiv 202107 (OpenAI)
130 | 本文提出CodeX,一个可以辅助编程的算法,具体是你只需要写出注释,CodeX可以自动地帮你把代码补全。用到的技术基于GPT模型的,在GitHub上爬到所有公开的python代码,来训练模型。后来DeepMind提出了AlphaCode,解决的是相似的问题。
131 | # 33: 20220702
132 | ### Title: Quo vadis, action recognition? a new model and the kinetics dataset
133 | ### Venue: CVPR 2017
134 | 作者提出I3D(Inflated 3D ConvNet)网络,用来解决视频理解的任务。除此之外,文章还发布了一个新的数据集:K400,推动了视频理解领域的发展。I3D简单但有效,思想是将2D的网络原封不动地膨胀到3D,原来的预训练参数也可以使用。
135 | # 34: 20220704
136 | ### Title: Pathways: Asynchronous Distributed Dataflow for ML
137 | ### Venue: Arxiv 202203 (Jeff Dean)
138 | 本文针对深度学习框架Jax提出一个深度学习分布式训练的系统Pathways。对分布式训练过程中内存的使用、不同机器之间的通信、子任务的调度等方面均做出了优化,使得在TPU上的使用率可以达到60%,这对于大规模数据或模型的分布式训练来说已经很高了。
139 | # 35: 20220705
140 | ### Title: Glass Segmentation with RGB-Thermal Image Pairs
141 | ### Venue: Arxiv 202205
142 | 本文解决的任务是玻璃分割,即找到图片中玻璃的区域,该任务对于robotics,manufacturing,assistive care均有意义。玻璃是透明的,它的纹理等特征受背景的影响,因此该任务极具挑战。作者提出用RGB和thermal images的pair数据,来解决这个任务,之所以要用thermal image,是玻璃对于热红外摄像头是不透明的,利用这一物理特性。网络架构用的是encoder-decoder,两个encoder分别提取RGB image和thermal image的特征,用attention融合,最后解码器生成分割的mask。
143 | # 36: 20220705
144 | ### Title: GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism
145 | ### Venue: NIPS 2019 (Google Brain)
146 | 本文是系统方向的一篇文章,提出了流水线并行。还有其它的并行方式:模型并行(把一个model切开,一部分放GPU1,一部分放GPU2),数据并行(数据切开,一部分在GPU1计算,一部分在GPU2计算)。
147 | # 37: 20220714
148 | ### Title: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
149 | ### Venue: Arxiv 201909 (Nvidia)
150 | 系统方向,用于训练大模型,只针对transformer。属于模型并行,与GPipe相比的不同点是,本文切分数据是在层内进行切分,而不是把model切分为两半。缺点是GPU之间的通讯时间耗费比较大。体会:可能只有在使用超算资源的时候,普通人才能接触到这一方面的研究应用。
151 | # 38: 20220718
152 | ### Title: ZeRO: Memory optimizations Toward Training Trillion Parameter Models
153 | ### Venue: SC 2020 (Microsoft)
154 | ZeRO+DeepSpeed:微软发布的高效大规模训练套件。ZeRO克服数据并行性和模型并行性的局限性,通过跨数据并行进程划分模型状态(参数,梯度和优化器状态),而不是复制它们,从而消除了数据并行进程之间的内存冗余。它在训练期间使用动态通信方式,以在分布式设备之间共享必要的状态,以保持数据粒度的计算粒度和通信量。该团队称此为ZeRO驱动的数据并行性,它允许每个设备的内存使用量随数据并行性的程度线性扩展,并产生与数据并行性相似的通信量。
155 | # 39: 20220719
156 | ### Title: Hierarchical Text-Conditional Image Generation with CLIP Latents
157 | ### Venue: Arxiv 202204 (OpenAI)
158 | 本文提出了DALLE2(unCLIP),用语言生成图像。采用的是diffusion model。作者用预训练好的CLIP模型,根据语言生成语言特征,用语言特征预测图像特征,然后用图像特征生成图像。目前diffusion model在生成模型中非常火热,主流的生成模型有:VAE、GAN、diffusion model,它们各有各的优点。
159 | # 40: 20220720
160 | ### Title: Vision Transformer With Deformable Attention
161 | ### Venue: CVPR 2022
162 | 作者提出DAT,把deformable convolution的思想应用到transformer中,基于ViT,构建了一个新的主干网络,在ImageNet上取得SOTA。
163 | # 41: 20220721
164 | ### Title: Swin Transformer V2: Scaling Up Capacity and Resolution
165 | ### Venue: CVPR 2022 (Oral)
166 | 作者朝向大规模的模型,将主干网络的参数提升到3 billion,解决了大规模模型训练不稳定、低分辨率到高分辨率转换时的gap、训练数据标注昂贵这三个问题。在ImageNet-V2、COCO、ADE20K和Kinetics-400数据集上取得SOTA。
167 | # 42: 20220725
168 | ### Title: TryOnGAN: Body-Aware Try-On via Layered Interpolation
169 | ### Venue: ACM TOG 2021
170 | 本文针对真实的换衣任务,可以保持原来人物的姿态,皮肤等特征。基于styleGan2框架,加入了a clothing segmentation branch。并且本文提出的方法在训练时不需要paired data。
171 | # 43: 20220728
172 | ### Title: Restormer: Efficient transformer for high-resolution image restoration
173 | ### Venue: CVPR 2022
174 | 针对图像修复任务。使用transformer网络。提出了Restormer,由transformer块组成的带有全局残差的encoder-decoder结构(U-Net)。框架图画的很漂亮。
175 | # 44: 20220728
176 | ### Title: Hierarchical Conditional Flow: A Unified Framework for Image Super-Resolution and Image Rescaling
177 | ### Venue: ICCV 2021
178 | 针对图像超分辨率任务。从低分辨率到高分辨率,应该是一对多的过程,当前的工作大多没考虑到这一点。本文采用随机噪声为超分辨率的过程引入随机因素,生成多种结果。整体框架和diffusion model很像,但不是。
179 | # 45: 20220729
180 | ### Title: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
181 | ### Venue: ICML 2021
182 | 本文是第一个基于patch projection的多模态预训练模型,其是首个使用patch projection来做visual embedding的方法。证明了可以将BERT的方法和ViT结合起来用于多模态transformer。实验体现了全词掩码在预训练时以及图像增强在微调时的重要性。
183 | # 46: 20220825
184 | ### Title: Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise
185 | ### Venue: Arxiv 202208
186 | 本文作者提出了一个疑问:制作扩散模型的变体,是不是非得使用高斯噪声不可?通过多次尝试,该研究团队得出了答案:并不一定需要。在这篇论文中,作者不再将扩散模型局限于「依赖高斯噪声而建立」,而是提出了围绕模糊(blurring)、下采样(downsampling)等任意图像变换方式建立的广义扩散模型。由于不再有原先的「高温」状态,这种全新广义扩散模型也就被称作为 Cold Diffusion。过去标准的扩散模型有两步工作流程:首先,用图像退化算子(image degradation operator)使得图像受到高斯噪声的污染,其次用一个训练好的恢复算子(restoration operator)对图像进行去噪,逆转退化,从而得到一张新图像。Cold Diffusion 继承了这两步工作流程,但又对之进行了升华式的修改。如下图所示,在图像退化再到逆转退化的过程中,Cold Diffusion 研究团队尝试了使用噪声、模糊、变形(Animorph)、遮罩(mask)、像素化(pixelate)、雪花等变换方式,且都得到了不错的效果。在训练和测试期间不需要高斯噪声的 Cold Diffusion,突破了人们对扩散模型的原有理解,为新型生成模型打开了未来的大门。
187 | # 47: 20220826
188 | ### Title: ZoomNAS: Searching for Whole-body Human Pose Estimation in the Wild
189 | ### Venue: TPAMI 2022
190 | 本文提出ZoomNet单网络方法,并提出ZoomNAS神经架构搜索框架,以提高全身姿态估计的准确性和效率,还引入了第一个大规模2D人体全身数据集:COCO-WholeBody V1.0。关键词:Whole-body human pose estimation, neural architecture search, in-the-wild dataset。数据集:https://github.com/jin-s13/COCO-WholeBody
191 | # 48: 20220923
192 | ### Title: Position-Aware Relation Learning for RGB-Thermal Salient Object Detection
193 | ### Venue: Arxiv 202209
194 | 本文是关于RGB-T SOD领域的。作者分析了当前方法的缺点:忽略了边界像素和区域像素的关系。他们提出了一个基于swin transformer的backbone网络来提取RGB-T的特征,包括dual-stream encoder和一个decoder。本文取得了SOTA。
195 | # 49: 20220923
196 | ### Title: CLIPasso: Semantically-Aware Object Sketching
197 | ### Venue: Siggraph 2022 (best paper)
198 | 本文提出了一个Sketching方法,CLIPasso。该方法可以将一张图片抽象为一幅简笔画,并且可以控制抽象的程度(通过控制笔画数实现)和抽象的风格(通过控制曲线的degree实现)。CLIPasso利用了CLIP模型的语义建模能力(它对visual feature和visual depiction feature进行encoder),在高维空间学习抽象的语义特征。CLIP模型非常擅长做sketching这个工作。CLIPaaso的效果非常惊艳,作者进行了定性和定量实验。文章写作非常具体,代码开源。文中用了许多trick,可以follow。此外,将该任务建模为Bezier Curve也非常巧妙。
199 | # 50: 20220924
200 | ### Title: Enhancing vehicle detection accuracy in thermal infrared images using multiple GANs
201 | ### Venue: Arxiv 202209
202 | 本文致力于解决低光条件使车辆检测性能降低的问题。在这个任务下,车辆的前照灯和尾灯会影像SOTA方法的检测精度。因此,本文提出利用热红外图像来避免这些干扰。具体地,本文首先利用GAN将夜间的热红外图像转化为白天的RGB图像,然后在转化之后的图像上进行检测。
203 | # 51: 20220924
204 | ### Title: Safety Metrics and Losses for Object Detection in Autonomous Driving
205 | ### Venue: Arxiv 202209
206 | 1. Why? 当前自动驾驶场景下的目标检测任务,衡量其好坏的指标是mean Average Precision (mAP),这一指标反应不出检测模型的安全性。而安全对于自动驾驶任务是至关重要的。
207 | 2. What? 本文提出了自动驾驶场景下3D object detector的安全性需求。设计了定量和定性的安全指标,safety loss优化detector的训练。
208 | 3. How? 本文将安全性定义为detector总是以全覆盖的方式预测距离不超过其地面真实的物体。然后,我们通过抽象现实世界将此需求形式化为规范。
209 | 4. How much? 提出的指标可以区分两种方法。
210 | 5. What then? 迁移到其它任务上,如追踪和轨迹预测。
211 | # 51: 20220924
212 | ### Title: Video Demoireing with Relation-Based Temporal Consistency
213 | ### Venue: CVPR 2022
214 | 1. Why? 当前的视频去摩尔纹方法没有recover时序上的consistent,或者是以牺牲frame-level的quality 和 fidelity,导致出现blurry 和 low-contrast。
215 | 2. What? 本文collect了一个视频去摩尔纹数据集;提出了一个relation-based temporal consistency loss,该loss可以encourage预测视频帧的direct relations接近GT。
216 | 3. How? 设计一个Multi-Scale Region-Level Relation Loss来考虑Temporal Consistency。
217 | 4. How much? 在LPIPS指标上上,与MBCNN相比,提高了22%,在user study中,超过75%的user更偏好本文方法的结果。
218 | 5. What then? generalization issues under different camera views、different ISP and Bayer filters、screens (e.g., different resolution)。
219 | # 52: 20220926
220 | ### Title: When Pedestrian Detection Meets Nighttime Surveillance: A New Benchmark
221 | ### Venue: IJCAI 2020
222 | 本文提出一个新的数据集:NightSurveillance。该数据集收集了低光照监控视角的行人图片,用来为低光照条件下的行人检测任务提供一个benchmark。该数据集有38k图像,52k标注框,平均每张图像2.46个行人。考虑了Data Size、Occlusion、Data Scale、Illumination、Attributes方面的数据多样性。实验部分展示了主流的pedestrians detector在已有数据集和本文提出数据集上的效果。
223 | # 53: 20220926
224 | ### Title: Consistency-Constancy Bi-Knowledge Learning for Pedestrian Detection in Night Surveillance
225 | ### Venue: ACM MM 2021
226 | 本文解决的任务是low illumination下的pedestrians detection。作者从真实世界的24小时Surveillance场景出发,分析得到两种先验知识:distribution cross-time consistency和 background cross frame constancy。前者表示无论是白天还是夜晚,在同一个摄像头下,行人分布的位置是相似的;后者表示同一个摄像头下获取到的所有图像,无论白天还是夜晚,背景是不变的。利用这两点先验知识,作者构建了consistency-constancy bi-knowledge learning,在NightSurveillance数据集上取得SOTA。
227 | # 54: 20220927
228 | ### Title: MAGIC: Mask-Guided Image Synthesis by Inverting a Quasi-Robust Classifier
229 | ### Venue: Arxiv 202209
230 | 本文是一篇image synthesis的工作,可以根据一张二值化的mask图片,生成与mask契合的逼真image。本文提出了model inversion的概念。model inversion简单来说就是fix model的参数,使用back-propagation来优化input,这个过程是adversarial attack和explainable AI的基本需求。文中对model inversion有definition。
231 | # 55: 20220927
232 | ### Title: Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection
233 | ### Venue: ICCV 2021
234 | 代码开源。本文提出一个新的解决方案,设计了一个新的在低光环境下的目标检测的pipeline——MAET。在训练阶段,MAET没有采用低光数据集,而是利用一个low-light-degrading transformation将VOC和COCO数据集降质,在这个过程中涉及到一些参数。然后利用一个encoder和decoder学习这些参数,由此鼓励模型学习physical noise以及相机的ISP的影响。然后利用一个encoder和decoder(yolov3)进行目标检测任务。在低光数据集的实验结果显示MAET取得不错的效果。文中对Low-Illumination Degrading Transformations有相机的描述。
235 | # 56: 20220927
236 | ### Title: Illumination-Adaptive Person Re-identification
237 | ### Venue: TMM 2020
238 | 本文提出光照自适应的行人re-ID方法。大多数的person re-ID方法假设图片有相似的光照条件,然而在实际应用中,long-term的应用场景(不同时间下、不同光照下)是常见的。在这种场景中,person re-ID方法的性能会降低。因此,本文提出Illumination-Adaptive Person Re-identification(IA-ReID)。具体地,本文设计一个光照特征解耦网络来分离不同强度的光照,同时保留person的识别特征。此外,本文构建了两个large-scale simulated datasets with a wide range of illumination variations来评估提出的方法。
239 | # 57: 20220928
240 | ### Title: OBBStacking: An Ensemble Method for Remote Sensing Object Detection
241 | ### Venue: Arxiv 202209
242 | 代码开源。本文研究遥感图像的目标检测任务。该任务一般采用Oriented Bounding Boxes。在一个竞赛中本文的方法取得第一名。
243 | # 58: 20220928
244 | ### Title: Shedding light on the weather
245 | ### Venue: CVPR 2003
246 | 本文提出了atmosphere point spread function (APSF),是一个经典的对点光源的light effect进行建模的方法。不同于PSF,该工作加入了环境对light effect的影响。
247 | # 59: 20220928
248 | ### Title: Removing Diffraction Image Artifacts in Under-Display Camera via Dynamic Skip Connection Network
249 | ### Venue: CVPR 2021
250 | 智能手机采用的屏下相机在拍摄时半透明的有机发光二极管(OLED)像素阵列的微观结构会衰减和衍射相机上的入射光,从而导致显著的图像质量下降。质量下降。本文关注解决这中degradation。作者设计了physics-based image formation model来更好地理解这种degradation。作者measure了这种相机的real-world Point Spread Function,并且设计了一个model-based data synthesis pipeline来生成 realistically degraded images。实验结果表明本文提出方法有效地抑制了这种degradation。
251 | # 60: 20220928
252 | ### Title: On the Tradeoff Between Robustness and Fairness
253 | ### Venue: NIPS 2022
254 | 在平衡数据集上经过自然训练的模型对于不同类的预测能力通常比较接近。但对抗训练后的模型却在一些类上表现较好,而在另外一些类上表现较差,即模型在不同类上的标准准确率和鲁棒准确率具有明显差异(Disparity)。本文深入研究了这一问题,并发现更强的对抗训练能够有效提高模型在不同类上的平均鲁棒准确率,但在不同类上鲁棒准确率的差异也会随之明显增大,即模型的鲁棒性与公平性之间存在权衡(Tradeoff)。而导致这一现象的原因是对抗训练具有一种潜在的偏好:对抗训练更加专注于学习鲁棒类的分布而忽视了易受攻击的类。此外,本文也从理论上证明了对抗训练相对于自然训练更容易导致公平性问题。为了解决这一问题,本文提出了一种新的训练方法FAT(Fairly Adversarial Training),并通过大量的实验验证了FAT的有效性。
255 | # 61: 20220928
256 | ### Title: Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement
257 | ### Venue: CVPR 2020
258 | 代码开源。本文提出Zero-Reference Deep Curve Estimation (Zero-DCE),把light enhancement任务建模为一个image-specific curve estimation问题。该方法用DCE-Net估计一个pixel-wise and high-order的curve,用生成的curve控制像素值区间、单调性和可微性。该方法不需要pair data,是由一系列non-reference loss functions实现的。
259 | # 62: 20220928
260 | ### Title: On Robust Multiclass Learnability
261 | ### Venue: NIPS 2022
262 | 本文在PAC(Probably Approximately Correct)框架下证明了,经典理论中研究(非鲁棒)多分类问题下函数类可学习性的重要工具——Natarajan维度或graph维度——无法刻画函数类的鲁棒可学习性。对此,本文定义了AN维度和AG维度(Adversarial Natarajan Dimension & Adversarial Graph Dimension),基于此导出了学习鲁棒分类器所需样本复杂度的一个上界与下界。此外作者研究了这两个定义的诸多性质。本文为填补鲁棒学习领域多分类理论的空白做出了重要贡献。
263 | # 63: 20221003
264 | ### Title: Unsupervised Night Image Enhancement: When Layer Decomposition Meets Light-Effects Suppression
265 | ### Venue: ECCV 2022
266 | 本文关注夜间图像增强问题。作者提出大多数方法只关注低光区域的增强,这导致bright region的over enhancement问题,受到light effect的影响。因此,本文在镇压bright region的light effect的同时,增强dark region。本文提出了一个layer decomposition network,将一张图像分解为light-effects layer、 reflectance layer和shading layer。然后,将这些层输入到light-effects suppression network。该方法使用unpaired data进行训练。
267 | # 64: 20221004
268 | ### Title: Privacy-Preserving Person Detection Using Low-Resolution Infrared Cameras
269 | ### Venue: Arxiv 202209
270 | 作者关注现实世界的应用场景:intelligent building。为了节约能源,这些建筑自适应地调节lighting、heating和ventilation等。这一需求依赖于person detection,同时需要考虑到隐私问题,一般来说,只需要知道人的数量和位置就可以。因此作者提出用低分辨率的热红外图像去做person detection。这不仅保护了隐私,而且可以降低计算量。
271 | # 65: 20221012
272 | ### Title: Nighttime Visibility Enhancement by Increasing the Dynamic Range and Suppression of Light Effects
273 | ### Venue: CVPR 2021
274 | 本文关注Light Effects Suppression。输入的Nighttime Image首先经过一个Linearisation单元,得到Linearized Image,然后经由DeLight和DeNoise模块,最后输入Dynamic Range Improvement模块,得到一张预测的Nighttime Image。实验显示该方法取得SOTA。
275 | # 66: 20221013
276 | ### Title: Modeling the Lighting in Scenes as Style for Auto White-Balance Correction
277 | ### Venue: WACV 2023
278 | 风格可以指不同的概念(如绘画风格、发型、纹理、颜色、滤镜等),这取决于特征空间是如何形成的。在这项工作中,作者提出了一个新颖的想法,即把单光照和多光照场景中的光照解释为风格的概念。为了验证这一想法,作者引入了一种增强型自动白平衡(AWB)方法,将单照度和混合照度场景中的光照作为风格因素建模。自动白平衡方法不需要任何光照估计步骤,但包含一个网络学习功能,用于生成不同白平衡设置下的图像加权图。网络利用了通过多头风格提取从场景中提取的风格信息。多头风格提取模块从场景中提取的风格信息。在将这些加权图与场景融合后,即可完成白平衡校正。在单一照度和混合照度数据集上的实验表明,与近期的研究相比,作者提出的方法取得了良好的校正效果。这表明,多光照场景中的照明可以用风格概念来建模。
279 | # 67: 20221018
280 | ### Title: A case for redundant arrays of inexpensive disks (RAID)
281 | ### Venue: ACM SIGMOD 1988
282 | 本文致力于解决存储可靠性的问题。当用户集成许多inexpensive disks来存储数据时,一个硬盘坏掉,就会造成数据的丢失,因此本文提出了Redundant Arrays of Inexpensive Disks,RAID,一套可靠的存储系统。
283 | # 68: 20221019
284 | ### Title: TRANSFERABLE UNLEARNABLE EXAMPLES
285 | ### Venue: NIPS 2022
286 | 1. Why? 随着越来越多的人在网上公布自己的个人数据,人们开始担心这些公布的数据会在未经数据所有者许可的情况下被用来训练机器学习模型。引入unlearnable策略是为了防止第三方在未经许可的情况下对数据进行训练。
287 | 2. What? 在发布前对用户数据添加扰动,目的是使在扰动后发布的数据集上训练的模型失效。在已发布的扰动数据集上训练的模型失效。这些扰动是针对特定的训练设置和目标数据集生成的。不过,在其他训练环境和数据集上使用时,其不可学习的效果会明显降低。
288 | 3. How? 为解决这一问题,提出了一种基于分类可分性判别式(CSD)的新型不可学习策略。其目的是通过增强线性判别式,将不可学效应更好地转移到其他训练环境和数据集。
289 | 4. How much? 广泛的实验证明了可迁移性。
290 | 5. What then? None.
291 | # 69: 20221020
292 | ### Title: A Robust Pedestrian Detection Approach for Autonomous Vehicles
293 | ### Venue: arXiv 202210
294 | 本篇论文关注自动驾驶场景中的行人检测问题。在YOLOv5上进行finetune,训练数据集使用的是Caltech pedestrian dataset。该数据集是首次看到,可能会用到后续的研究中。
295 | # 70: 20221024
296 | ### Title: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
297 | ### Venue: NIPS 2022
298 | 本文是COT(Chain-of-Thought)领域的开山之作。作者有效地提升了大规模语言模型在推理任务中的性能,而做法仅仅是告诉模型:let's think step by step。具体地,COT在进行推理时,加入了中间的推理过程,使模型在推理时生成一个推理链条,而不是直接地给出答案。本文给出了一个强调:目前大多数的prompting方法应用在大规模的语言学习模型中取得的效果,只是Large Language Models的性能下限。这样的结论让人感到当前阶段还有很多研究工作可以去探索。
299 | # 71: 20221026
300 | ### Title: On the Versatile Uses of Partial Distance Correlation in Deep Learning
301 | ### Venue: ECCV 2022 (best paper award)
302 | 代码开源。比较神经网络模型的功能行为,无论是在训练期间的单个网络,还是训练一段时间后的两个网络(或更多网络),这些是了解模型正在学习什么(以及它们没有学习什么)的重要步骤,同时也是确定规范化或提高效率的重要策略。
303 | 最近的研究已经取得了一些进展,例如研究者将视觉 transformers 与 CNN 进行比较,但系统地比较功能,特别是在不同的网络之间,仍然存在很多困难,通常的做法是一层一层地进行比较。
304 | CCA(canonical correlation analysis)等方法在原则上适用,但迄今为止用的人很少。本文回顾了统计学中一个鲜为人知的概念,称为距离相关(及其部分变体),它被设计用来评估不同维度特征空间之间的相关性。该研究描述了将其部署到大规模模型的必要步骤,这为一系列应用打开了大门,包括调节一个深度模型,学习解耦表示,以及优化不同的模型,这些模型在应对对抗攻击时,鲁棒性更好。
305 | # 72: 20221026
306 | ### Title: Pose-NDF: Modeling Human Pose Manifolds with Neural Distance Fields
307 | ### Venue: ECCV 2022 (best paper honorable mention)
308 | 1. Why? 现有的方法会引入artifacts like skating, self-intersections and jitters,导致生成不真实的human poses。
309 | 2. What? 本文致力于Realistic and accurate human motion capture and generation。
310 | 3. How? 提出用Pose-NDF来表征plausible human pose manifold。
311 | 4. How much? 在 diverse pose sampling, pose estimation from images, and motion denoising任务中都取得良好的性能。
312 | 5. What then? None.
313 | # 73: 20221026
314 | ### Title: A Level Set Theory for Neural Implicit Evolution under Explicit Flows
315 | ### Venue: ECCV 2022 (best paper honorable mention)
316 | 基于坐标的神经网络参数化隐式表面已经成为几何的有效表示,它们高效充当了参数水平集,其中零水平集定义了感兴趣的表面。研究者提出了一个框架,允许将为三角形网格定义的变形操作应用于这类表面。这些操作中的一些可以被视为在显式表面引起瞬时流场的能量最小化问题。他们的方法通过扩展水平集的经典理论,利用流场来实现参数化隐式表面变形。
317 | 此外,通过形式化与水平集理论的关联,研究者还为现有的可微表面提取和渲染方法得出一个统一的观点。他们认为这些方法偏离了理论,并展示了自身方法对表面平滑、平均曲率流、逆渲染和用户定义的隐式几何编辑等应用的改进。
318 | # 74: 20221027
319 | ### Title: GLIF: A Unified Gated Leaky Integrate-and-Fire Neuron for Spiking Neural Networks
320 | ### Venue: NIPS 2022
321 | 代码开源。本文研究Spiking Neural Network,脉冲神经网络(被认为是第三代神经网络)。本文在vanilla LIF model的基础上提出了gated LIF model(GLIF),用以融合三种bio-features:membrane potential leakage, integration accumulation, and spike initiation,使其具有更多的响应特性。本文在三个数据集上进行评估:CIFAR,ImageNet和CIFAR10-DVS, 结果显示,在CIFAR-100上,GLIF只用6个time step就可以达到77.35% top-1 accuracy。
322 | # 75: 20221027
323 | ### Title: GlassesGAN: Eyewear Personalization using Synthetic Appearance Discovery and Targeted Subspace Modeling
324 | ### Venue: arXiv 202210
325 | 本文研究virtual-try-on (VTON) 技术,关注的物件是眼镜。本文提出GlassesGAN,这是一个facial图像编辑框架,允许在VTON应用中进行custom design of eyeglasses。本文的main contribution之一:引入了Targeted Subspace Modeling可以在GAN的latent space中捕获到eyeglasses-appearance variations。之二:引入了a novel initialization procedure,用来提高编辑算法的可靠性。
326 | # 76: 20221101
327 | ### Title: Hiding Images in Deep Probabilistic Models
328 | ### Venue: NeurIPS 2022
329 | 1. why? 主流的数据隐藏是训练一个自动编码器(autoencoder),包括编码网络(encoding network)将秘密信息嵌入到载体中(或转换成载体),和解码网络(decoding network)用于信息提取,但该方法在实用性、安全性和嵌入容量方面存在一些限制。
330 | 2. what? 本文提出了一种新思路,将图像隐藏在深度概率模型中。具体来说,使用DNN对原图像集(cover image)的概率概率密度函数进行建模,并将秘密图像(secret image)隐藏在原图像集概率分布中的某一特定位置。
331 | 3. how? 首先,在一个包含载体图像和秘密图像的数据集上通过DNN学习数据的概率密度函数。其次,在密钥(embedding key)的辅助下,设计一个定向采样步骤,从图片中提取出秘密图像。没有密钥的第三方只能进行随机采样,生成外观类似于载体图像的样本图像。
332 | 4. how much? 使用三个客观图像质量指标(PSNR、SSIM和DISTS)来定量评估秘密图像的提取精度。
333 | 5. what then? Hiding Multiple Images for Different Receivers; Obfuscating the Secret Image.
334 | # 77: 20221101
335 | ### Title: Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification
336 | ### Venue: ECCV 2020
337 | 会议论文扩刊至TIFS。当前关于Person Re-ID任务可以分为Single-Modality Person Re-ID和Cross-Modality Person Re-ID,本文关注后者,具体指Visible-Infrared Person Re-ID。作者提出由于cross-modality,模型很难学到辨别性的特征。本文利用一种dynamic dual-attentive learning方法来解决上述问题,并且提出一种parameter-free的学习策略。实验结果显示超过SOTA方法。
338 | # 78: 20221103
339 | ### Title: CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks
340 | ### Venue: NIPS 2022
341 | 本文关注模型窃取(imitation attack)旨在窃取远程 APIs,并将其本地化。
342 | 1. Why? 模型水印可以通过逆向工程破解,从而导致水印失效。具体而言,通过对比加过水印的数据和正常数据上的词频分布,即可发现水印。
343 | 2. What? 本文提出一种基于条件要素的水印方法,选择性地对受害模型的输出进行水印保护,以此实现难以察觉和不可逆向工程的版权保护。
344 | 3. How? 之前的水印技术失效的主要原因在于破坏了水印词和原有词的词频分布,导致水印秘钥的泄露。因此,CATER 采取选择性水印,即只有当条件触发时,受害模型的输出才会打上水印。
345 | 4. How much? 实验验证CATER能有效地进行模型版权保护。
346 | 5. What then? 无。
347 | # 79. 20221103
348 | ### Title: CT2: Colorization Transformer via Color Tokens
349 | ### Venue: ECCV 2022
350 | 本文设计了一个自动着色的Transformer模型,以color tokens作为辅助,实现了目前最好的着色效果。color tokens来自于经典工作《colorful image colorization》(CIC)中量化ab color space的思路,我们将每个格子都当做一个token,借助position embedding得到格子之间的位置关系,从而获得color token的颜色相对关系(离得远的色差大,否则小),从而设计一系列模块来引导color token监督着色。模型不需要任何前置条件(例如目标检测主要着色物体,或者先用inversion GAN生成个参考图像),就能生成正确颜色语义和丰富饱和度的图像。因为没有前置条件的需求,所以使用场景更广(例如不受限于检测器可以检测的目标的类别,以及GAN可以生成的图像的类别)。
351 | # 80: 20221108
352 | ### Title: Face-Mic: Inferring Live Speech and Speaker Identity via Subtle Facial Dynamics Captured by AR/VR Motion Sensors
353 | ### Venue: ACM MobiCom 2021
354 | 本文提出通过分析人的脸部振动特征,就能获取用户的身份、性别、语音内容等多种敏感信息。虚拟现实技术的日臻成熟让头戴式 VR/AR 设备被广泛应用于各种娱乐及消费行业。这些设备的操作方式也从传统的控制器向语音操控转移,以便让用户更方便地控制设备、输入信息或执行网络交易。但攻击者可利用动作传感器(无须用户授权)捕捉用户使用语音接口时的脸部振动,实现对用户的语音窃听。主要分析了两方面由声音引起的振动,即脸部(肌肉、骨骼)和声带的振动。是首个利用脸部动态实现对语音等敏感信息窃听的攻击装置——Face-Mic。
355 | # 81: 20221109
356 | ### Title: Garment Avatars: Realistic Cloth Driving using Pattern Registration
357 | ### Venue: arXiv 202211
358 | 1. Why? 在Virtual telepresence场景中,对Garment的建模是一个很重要的任务。但是当前的方法在建模衣服随身体运动而产生的形变等transformation时,真实性和可靠性还不理想。
359 | 2. What? 本文提出了一个全新的pipeline来准确地捕获衣服的变化。
360 | 3. How? 本文采用了一件人工制作的衣服,这件衣服是有特殊的图案,借助检测模型可以对这些图案进行标定,然后由这些信息驱动在不同动作和姿态下衣服的建模。采用本文的Garment Avatars可以准确地捕捉到衣服随身体运动是的形变。
361 | 4. How much? 在3D Registration和sparse observations上进行了评估。
362 | 5. What then? real-time performance等,文中指出了很多future work.
363 | # 82: 20221114
364 | ### Title: A Path Towards Autonomous Machine Intelligence
365 | ### Venue: openreview 202206
366 | 作者Yann LeCun。本文是一篇position paper,观点论文。作者提出了一种架构和构建自主智能agent的架构和训练范例。它结合了可配置的预测性world model。作者认为今天,人工智能研究必须解决三个主要挑战:1.机器如何通过观察来学习代表世界、学习预测和学习采取行动?现实世界中的交互既昂贵又危险,智能代理应该在没有交互的情况下(通过观察)尽可能多地了解世界,以尽量减少学习特定任务所需的昂贵和危险试验的数量。2.机器如何以与基于梯度的学习兼容的方式进行推理和计划?我们最好的学习方法依赖于估计和使用损失的梯度,这只能在可微架构中执行,并且很难与基于逻辑的符号推理相协调。3.机器如何学习以分层方式、多抽象层次和多时间尺度来表示感知和行动计划?人类和许多动物能够构想多层次的抽象,通过将复杂的动作分解为较低层次的序列,可以进行长期预测和长期规划。
367 | # 83: 20221118
368 | ### Title: DeepPrivacy2: Towards Realistic Full-Body Anonymization
369 | ### Venue: arXiv 202211
370 | 本文关注人体匿名化。之前的方法大多数关注人脸的匿名化,但这个工作提出了Full-body匿名化,该方法称为DeepPrivacy2。它通过CSE-guided generator检测individuals,然后利用an unconditional full-body generator应对上一步没有检测出来的,再利用a face generator应用逃避过上两步将测的人脸。代码开源。
371 | # 84: 20221128
372 | ### Title: Learnable Blur Kernel for Single-Image Defocus Deblurring in the Wild
373 | ### Venue: AAAI 2023
374 | 当镜头景深 (DoF) 以外的场景点在拍摄过程中出现失焦 (OoF) 时,就会出现失焦模糊(Defocus blur)。作者提出一种可学习的模糊核,它使用 DP 视图,通过一种无需校准模糊核的自我监督学习方法来估算散焦图。DefocusGAN一种由离焦图引导的多尺度Defocus Deblurring GAN。性能表现SOTA,代码没有开源。
375 | # 85: 20221231
376 | ### Title: Understanding Ethics, Privacy, and Regulations in Smart Video Surveillance for Public Safety
377 | ### Venue: arXiv 202212
378 | 作者提出Smart Video Surveillance系统为人类社会带来了伦理问题和挑战。本文review了四项政策保护法规,这些法规概括了隐私保护的最佳实践,作者认为可以从算法、系统、模型和数据这四个角度来解决伦理和隐私问题。作为一项案例研究,作者提出了一个系统,并说明该系统如何为设计隐私保护系统提供基准,从而为社会提供安全保障。
379 |
380 |
381 |
382 |
383 |
384 |
385 |
386 |
387 |
388 |
389 |
390 |
391 |
392 |
393 |
394 |
395 |
396 |
397 |
398 |
399 |
400 |
401 |
402 |
403 |
404 |
405 |
406 |
407 |
408 |
409 |
410 |
411 |
412 |
413 |
414 |
415 |
416 |
417 |
418 |
419 |
420 |
421 |
422 |
423 |
424 |
425 |
426 |
427 |
428 |
429 |
--------------------------------------------------------------------------------
/Paper_Reading/2023.md:
--------------------------------------------------------------------------------
1 | # 1: 20230103
2 | ### Title: MVTN: Learning Multi-View Transformations for 3D Understanding
3 | ### Venue: TPAMI 2023
4 | 本文是一会议论文(ICCV 2021)扩刊到TPAMI。作者提出了一个Transformation Network:Multi-View Transformation Network (MVTN),致力于提高3D classification and shape retrieval的性能。作者发布了一个Pytorch库:MVTorch,用来训练、测试和可视化多视角深度学习的pipeline。
5 | # 2: 20230111
6 | ### Title: Camera Intrinsic Blur Kernel Estimation: A Reliable Framework
7 | ### Venue: CVPR 2015
8 | 在本文提出了一种non-blind测量相机固有blur的方法。作者建立了一个可靠的硬件装置,与现有的non-blind技术不同,它省去了用于摄影场景对齐的同构和径向失真估计。因此,捕捉到的图案与原始图案之间可能存在的几何对齐误差大大减少。这种设置还能使捕捉到的图案与清晰图案之间实现像素到像素的强度对应。因此,无需在两幅图像之间进行色调曲线估算或复杂的辐射校正。
9 | # 3: 20230203
10 | ### Title: Adaptive Siamese Tracking with a Compact Latent Network
11 | ### Venue: TPAMI 2023
12 | 本文是一会议论文(ECCV 2020)扩刊到TPAMI。
13 | # 4: 20230310
14 | ### Title: Jointly Defending DeepFake Manipulation and Adversarial Attack using Decoy Mechanism
15 | ### Venue: TPAMI 2023
16 |
17 | # 5: 20230310
18 | ### Title: APARATE: Adaptive Adversarial Patch for CNN-based Monocular Depth Estimation for Autonomous Navigation
19 | ### Venue: ArXiv 202303
20 |
21 |
22 | # 6: 20230310
23 | ### Title: Visual Analytics of Neuron Vulnerability to Adversarial Attacks on Convolutional Neural Networks
24 | ### Venue: ArXiv 202303
25 |
26 | # 7: 20230310
27 | ### Title: "I am uncomfortable sharing what I can't see": Privacy Concerns of the Visually Impaired with Camera Based Assistive Applications
28 | ### Venue: ArXiv 202303
29 |
30 | # 8: 20230313
31 | ### Title: CAFE: Catastrophic Data Leakage in Vertical Federated Learning
32 | ### Venue: NIPS 2021
33 | Federated learning是保护数据隐私一个重要的手段,具体做法是在server and workers之间只传递参数,不传递数据。但是现有方法显示federated learning并不安全,privacy会从gradients信息中被推测出来。作者提出现有的方法有两个缺点,一是当batch-size设置得大时,攻击方法效果就不太好了,二是现有方法缺少理论证明。因此作者提出了CAFE,来解决这些问题。文中对data leakage attack有较好的survey。
34 | # 9: 20230316
35 | ### Title: DisCO: Portrait Distortion Correction with Perspective-Aware 3D GANs
36 | ### Venue: ArXiv 202303
37 | 本文采用GAN-based方法来进行人脸照片的纵向失真校正。作者探讨了几种设计选择,以避免优化陷入次优解。首先通过联合优化相机内部/外部参数和面部潜在代码,使用透视扭曲的输入面部图像执行 GAN 反演。为了解决联合优化的模糊性,开发了焦距重新参数化、优化调度和几何正则化。 以适当的焦距和相机距离重新渲染肖像可以有效地纠正这些失真并产生更自然的效果。并且建立了一个用于人像透视畸变校正的定量评估协议。该协议有利于未来的研究。论文的写作、画图和思路都值得学习。
38 | # 10: 20230316
39 | ### Title: CoCa: Contrastive Captioners are Image-Text Foundation Models
40 | ### Venue: ArXiv 202205
41 | 这是一个非常经典的工作,文章的写作、画图和思路设计非常值得学习。本文提出了Contrastive Captioner(CoCa)这一极简设计,它将图像文本编码器-解码器基础模型与contrastive loss 和captioning loss结合起来进行预训练。与所有解码器层都参与编码器输出的标准编码器解码器transformers不同,CoCa省略了解码器层前半部分中的cross-attention,来编码单模态文本表示,并级联了图像编码器的其余解码层,用于多模态图像文本表示。作者在单模态的图像和文本之间应用了对比损失,此外,多模态解码器输出上的captioning loss可以自动回归预测文本token。通过共享相同的网络层,可以以最小的开销高效地计算两个训练目标。
42 | # 11: 20230327
43 | ### Title: FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
44 | ### Venue: ArXiv 202307
45 |
46 | # 12: 20230921
47 | ### Title: Do DALL-E and Flamingo Understand Each Other?
48 | ### Venue: ICCV 2023
49 |
50 |
51 | # 13: 20231010
52 | ### Title: A Benchmark Dataset for Harmful Object Detection
53 | ### Venue: ArXiv 202310
54 | 论文从目前视频和图片风向的网络服务出发,研究了对图像这种媒体数据的自动筛查有害物体工作。论文提出了一个Benchmark Dataset for Harmful Object Detection。该数据集包含10,000图像,6个类别:Alcohol, Insulting Gesture, Blood, Cigarette, Gun, 和Knife。作者用YOLOv5和Faster R-CNN两个检测器在提出的数据集上评估了检测性能。
55 |
56 |
57 |
58 |
59 |
60 |
61 |
62 |
63 |
--------------------------------------------------------------------------------
/Paper_Reading/2024.md:
--------------------------------------------------------------------------------
1 | # 1: 20240101
2 | ### Title: Privacy-Preserving Representations Are Not Enough: Recovering Scene Content From Camera Poses
3 | ### Venue: CVPR 2023
4 | 视觉定位是一项从给定拍摄图像估算相机姿态的任务,也是一些三维计算机视觉应用的核心。现有的隐私保护定位工作旨在抵御可访问云服务的攻击者。本文通过实验展示,仅仅通过querying a localization服务,攻击者可以获取到scene中的细节信息。这种攻击基于这样一种观点,即现代视觉定位算法对外观和几何形状的变化具有鲁棒性。虽然这在一般情况下是一个理想的特性,但它也会导致算法定位那些与场景中的物体足够相似的物体。因此,攻击者可以向服务器查询足够多的物体图像,例如从互联网上获取的图像,其中一些图像将被定位。这样,攻击者就可以从服务返回的摄像头姿势(这是此类服务返回的最小信息)中了解物体的位置。本文开发了这种攻击的概念验证版本,并演示了其实际可行性。这种攻击对所使用的定位算法没有任何要求,因此也适用于隐私保护表示法。本文证明目前仅在隐私保护表征方面开展的工作是不够的。
5 | # 2: 20240112
6 | ### Title: Thinking Image Color Aesthetics Assessment: Models, Datasets and Benchmarks
7 | ### Venue: ICCV 2023
8 | 本文关注的task是Image Color Aesthetics Assessment(ICCA),想比于Image Aesthetics Assessment关注image整体的美感,包含color, brightness, sharpness等,ICCA只关注color的影响,包括色彩和谐度和色彩组合等。作者提出了一个方法叫Delegate Transformer,可以自适应地为主色分配兴趣点,并模拟人类的颜色空间分割行为。此外,本文提出了一个数据集,ICAA17K,是一个color-oriented dataset。文章的写作和数据集的提出等值得借鉴。
9 | # 3: 20240112
10 | ### Title: Scalable 3D Reconstruction From Single Particle X-Ray Diffraction Images Based on Online Machine Learning
11 | ### Venue: arXiv 202312
12 |
13 |
14 |
15 | # 4: 20240123
16 | ### Title: Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation
17 | ### Venue: CVPR 2023
18 | 本文研究的内容是对当前流行的文生图模型进行评估。作者提出虽然有FID和CLIPScore这些自动评估的指标,但人工评估仍是不可或缺的。但是当前的人工评估有许多不完全之处,例如评估细节在论文中没有披露,评估方式不一样等等,这些因素导致在对文生图模型进行评估时,结果不可靠,不同方法无法对比,无法复现。因此作者提出了一套详细的评估方法,利用亚马逊众包平台,记录了每一个步骤和评估细节。作者希望这一工作能成为人工评估的模板,推动人工评估在科研中的发展。
19 |
20 | # 5: 20240227
21 | ### Title: HumanNeRF-SE: A Simple yet Effective Approach to Animate HumanNeRF with Diverse Poses
22 | ### Venue: CVPR 2024
23 |
24 | # 6: 20240305
25 | ### Title: Segment Anything
26 | ### Venue: arXiv 2023
27 |
28 | # 7: 20240305
29 | ### Title: EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything
30 | ### Venue: CVPR 2024
31 |
32 | # 8: 20240305
33 | ### Title: Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
34 | ### Venue: arXiv 202402
35 | 本文提出了一个新的backbone: Vim,是Vision Mamba的缩写。与Vision Transformers类似,Vision Mamba受到Mamba在NLP任务上取得成功的启发,将其迁移到视觉任务上。作者认为有两个挑战:单向建模和缺乏位置意识。Vim结合了双向 SSMs 用于数据相关的全局视觉上下文建模,以及用于位置感知视觉识别的位置嵌入。实验显示Vim在性能和效率方法均优于DeiT。
36 | # 9: 20240312
37 | ### Title: People Taking Photos That Faces Never Share: Privacy Protection and Fairness Enhancement from Camera to User
38 | ### Venue: AAAI 2023
39 | 随着个人移动设备和公共摄像头数量的增加,个人面部信息等隐私数据面临被恶意第三方窃取的风险,这可能导致严重的后果。全球立法机构积极呼吁使用人工智能(AI)技术时,应尊重隐私并避免系统生命周期中的不公平偏见,符合联合国的可持续发展目标(SDGs)。大多数现有的隐私保护算法通过改变图像中面部的外观来保护隐私,但这些方法通常是不可逆的,并且可能影响图像的视觉感知或后续识别算法的效果。论文提出了一种从摄像头到最终用户的全流程保护面部信息的实用和系统性解决方案,即Flow-based Face Encryption Method (FFEM)。FFEM是一种新颖的轻量级面部加密方法,可以在与摄像头私有连接的本地嵌入式系统上实现,最小化在数据传输过程中被窃听的风险。论文展示了在NVIDIA Jetson Nano嵌入式设备上部署FFEM的概念验证系统,证明了解决方案在速度和能源效率方面具有广泛部署的潜力。
40 |
41 | # 10: 20240430
42 | ### Title: ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object
43 | ### Venue: CVPR 2024
44 | ImageNet-D利用diffusion model生成高质量的图像作为数据来源,从中挖掘困难样本组成最终数据集。实验结果表明,ImageNet-D有效降低了大量模型的测试准确率,包括最新的大模型CLIP和LLaVa-NeXT等。ImageNet-D从一个新的角度揭露了当前大模型的错误,有利于启发模型的进一步迭代。同时,整体数据集构建流程高效而灵活,可快速扩展到新的测试任务,为未来不同任务和场景构建测试基准提供了参考。
45 |
46 | # 11: 20240718
47 | ### Title: Implicit Style-Content Separation using B-LoRA
48 | ### Venue: arXiv 202403
49 | AIGC领域中的一项重要子任务就是对图像进行风格化处理,一般涉及到对图像视觉外观和纹理进行编辑(被视为是风格信息),同时保留其底层对象、结构和概念不变(被视为是内容信息)。为了达到这种编辑效果,就需要实现对图像中风格和内容进行分离。现有的方法通常需要训练专门的分离模型或者需要进行大量的优化,使用成本较高。本文介绍一篇全新的图像风格化工作,本文作者巧妙的将LoRA(低秩适应)机制引入到图像编辑领域,提出了一种称为B-LoRA的框架,该框架可以隐式分离单个图像中的风格和内容组件,同时继承了LoRA的各种优势,包括轻量化训练和即插即用等功能。此外,作者通过深度分析现有流行扩散模型(Stable Diffusion XL,SDXL)的内部架构,发现仅需要联合设置两个B-LoRA块即可以实现图像内容和风格的分离,从而显著的提升各种下游图像风格化任务的性能和效果。
50 |
--------------------------------------------------------------------------------
/Paper_Reading/Nature.md:
--------------------------------------------------------------------------------
1 | # 1: 20221130
2 | ### Title: Deep Learning-based Robust Positioning for All-weather Autonomous Driving
3 | ### Journal: NMI
4 |
5 | # 2: 20240407
6 | ### Title: Subtle adversarial image manipulations influence both human and machine perception
7 | ### Journal: NC
--------------------------------------------------------------------------------
/Paper_Reading/adversarial attack.md:
--------------------------------------------------------------------------------
1 | # 1: 20220502
2 | ### Title: Context-Aware Transfer Attacks for Object Detection
3 | ### Venue: AAAI 2022
4 | 目标检测模型是context-aware的,受此启发,作者提出context-aware attack,利用的context信息有cooccurrence of objects, relative locations, size。通过添加helper objects,实现了对目标检测模型的可迁移攻击。
5 | # 2: 20220502
6 | ### Title: Adversarial Patch
7 | ### Venue: NIPS 2017
8 | 本文提出了一种方法来创建真实世界中通用的、鲁棒的、目标对抗图像补丁。补丁是通用的原因在于它们可以被用于攻击任何场景;鲁棒是因为它们在各种各样的变换下仍有效果;目标是因为它们可以误导某个分类器输出任意特定目标类别(targeted attach)。这些对抗补丁可打印,并添加到任意场景、拍照并提供给图像分类器;甚至当补丁很小时,他们也能误导分类器忽略场景中的其他项(目标)并输出一个目标类别。
9 | # 3: 20220503
10 | ### Title: Fooling automated surveillance cameras: adversarial patches to attack person detection
11 | ### Venue: CVPRW 2019
12 | 用Adversarial Patch攻击detector(YOLOv2),实现physical adversarial attack。
13 | # 4: 20220504
14 | ### Title: Fooling thermal infrared pedestrian detectors in real world using small bulbs
15 | ### Venue: AAAI 2021
16 | 将Adversarial Patch攻击应用在热红外成像下的目标检测任务中,用发光的小灯泡制作patch,实现了physical attack。
17 | # 5: 20220504
18 | ### Title: Adversarial T-shirt! Evading Person Detectors in A Physical World
19 | ### Venue: ECCV 2020
20 | 制作Adversarial T-shirt攻击person detector。针对T-shirt的非刚性变形,文章提出了TPS transformation。
21 | # 6: 20220505
22 | ### Title: Legitimate Adversarial Patches: Evading Human Eyes and Detection Models in the Physical World
23 | ### Venue: ACM MM 2021
24 | 本文采用Adversarial Patch攻击person detector(YOLOv2),同时致力于生成能够躲过人类注意的patch,提出了patch的合理度,并用几个指标约束和衡量。
25 | # 7: 20220506
26 | ### Title: DPATCH: An Adversarial Patch Attack on Object Detectors
27 | ### Venue: workshop of safeAI@AAAI 2019
28 | 本文提出DPATCH,一种被迭代地训练的对抗patch,可以攻击主流的目标检测器。猜测DPATCH中的D代表detection。本文的motivation是发现现有的adversarial patch不能欺骗检测器例如Faster RCNN。提出了对检测框回归和目标分类同时进行攻击的思路。本文攻击了YOLO和Faster RCNN。文章没有考虑patch的视觉可接受度。
29 | # 8: 20220507
30 | ### Title: Robust Physical-World Attacks on Deep Learning Visual Classification
31 | ### Venue: CVPR 2018
32 | 本文认为生成鲁棒的物理攻击扰动,主要的挑战是环境的变化,并提出Robust Physical Perturbations(PR2),可以生成在相机视角改变距离和角度的扰动。这篇文章中提出了一种two-stage的评估方法:①Stationary(Lab) Tests:这种方法评估静止时,相机位置固定时对image的分类;②Drive-By(Field) Tests:相机是移动的,模拟自动驾驶的场景,因此相机对同一个物体,会捕获很多张image,这种方式评估动态场景下的分类。
33 | # 9: 20220507
34 | ### Title: Perceptual-Sensitive GAN for Generating Adversarial Patches
35 | ### Venue: AAAI 2019
36 | 论文提出了一个叫PS-GAN的网络,输入是原始图像Image和Seed Patch,输出为一个Adversarial Patch。具体地,用GAN的建模能力保证Image+Seed Patch的visual fidelity,而且在模型框架在加入attention 模块,将Patch贴在注意力高的位置,以此来提高模型的攻击性。
37 | # 10: 20220509
38 | ### Title: The Translucent Patch: A Physical and Universal Attack on Object Detectors
39 | ### Venue: CVPR 2021
40 | 文章提出现有的攻击方法有一个主要的限制:需要有接触到object的机会,这样才能把扰动添加上去。而且如果攻击多个object的话,需要把扰动添加的每个object上,这样无疑降低了practicality。因此本文提出一种camera-based物理攻击,将patch添加在相机的镜片上。
41 | # 11: 20220509
42 | ### Title: Adversarial Laser Beam: Effective Physical-World Attack to DNN in a Blink
43 | ### Venue: CVPR 2021
44 | 对抗攻击现有问题:
45 | 1.目前大多数研究是针对digital setting,然而在物理世界场景中,通常image被相机捕获然后被提供给model,攻击者无法直接干扰输入的image;
46 | 2.在物理世界的对抗样本,通常需要很大的扰动,不然无法被相机捕获到;
47 | 3.对抗样本中小扰动的攻击性很容易在物理世界复杂的场景中被减弱;
48 | 4.物理世界的对抗样本需要高隐蔽性,避免被防御者发现。
49 | 本文提出采用激光束进行攻击,Adversarial Laser Beam(AdvLB),主要用于光线较暗的环境中。由于是激光束,所以速度非常快,使攻击的可操作性变得非常高。这是对抗攻击的一种新的类型
50 | # 12: 20220510
51 | ### Title: Invisible Perturbations: Physical Adversarial Example Exploiting the Rolling Shutter Effect
52 | ### Venue: CVPR 2021
53 | 当前物理攻击的方法存在问题:都有一个假设——扰动一定时可见的,确保可以被相机感受到。本文提出一种对于人眼是不可见的扰动,利用相机中的辐射测量卷帘效应来创建出现在图像上的精确条纹图案,以此来达到攻击的目的。对于人眼来说,它看起来像是对象被照亮了,但相机创建了一个带有条纹的图像。本文在Related work部分提出一个观点:digital adversarial example,即攻击网络物体系统,是不现实的,因为攻击者如果有能力控制图像的像素,说明他已经有特权,并且可以直接采用更简单有效的攻击方式,而不是修改image的像素。
54 | # 13: 20220510
55 | ### Title: Bias-based Universal Adversarial Patch Attack for Automatic Check-out
56 | ### Venue: ECCV 2020
57 | 本文的提出一种two-stage对抗patch生成算法,目的是生成class-agnostic的universal对抗patch。攻击场景为自动结账平台。在stage one,首先融合许多hard example(指模型识别错误的图片),然后利用attention找到权重较大的区域,得到输出。在stage two,生成类prototype,然后将上一stage的输入贴到prototype上作为adversarial example,用它们攻击目标模型。本文利用model的认知偏置来得到对抗patch的texture,类似于决策边界。然后利用model的语义偏置来缓解训练时对数据量的依赖。
58 | # 14: 20220511
59 | ### Title: PhysGAN:Generating Physical-World-Resilient Adversarial Examples for Autonomous Driving
60 | ### Venue: CVPR 2020
61 | 概述:该篇文章应用场景是自动驾驶,提出了目前物理攻击面临的问题:1.大多数方法生成的是digital对抗样本,无法应用到物理世界中,因为这些方法添加的扰动覆盖整张Image,而真实的物理应用场景中并不能给一些视觉区域添加扰动,比如天空;
62 | 2.当前物理攻击算法聚焦于静态的物理世界场景,而真实应用场景是动态的;
63 | 3.生成的对抗样本视觉上是不真实的;
64 | 4.大多数方法聚焦于分类模型,而自动驾驶是转向模型(steering model),属于回归模型。
65 | 针对上述问题,本文才有GAN框架生成对抗样本,输入为3D tensor,第3维是时间,用这种方法考虑场景的动态变化,生成可以持续误导steering model的对抗样本。
66 | # 15: 20220511
67 | ### Title: Adversarial Camouflage:Hiding Physical-World Attacks with Natural Styles
68 | ### Venue: CVPR 2020
69 | 本文提出现有的攻击方法不能既满足攻击扰动的大小,又满足视觉的不可感知行。而且对抗扰动生成的过程是不受控制的,缺乏灵活性。因此本文提出用自然中存在的一些styles去生成对抗样本,同时在算法框架中考虑了从digital setting转化为physical-world setting的一些因素,例如视角变化、相机噪声等。采用了style loss、content loss、smooth loss和adversarial loss。
70 | # 16: 20220511
71 | ### Title: Feature Space Targeted Attacks by Statistic Alignment
72 | ### Venue: IJCAI 2021
73 | 1.Why?在adversarial example领域,目前主流的target attack方法,选择欧氏距离来衡量源特征和target特征之间的差距,这是存在问题的,它引入了不必要的空间匹配限制。就如一张image被识别为cat,和这只cat在image的左边还是右边没关系。2. What?
74 | 文章指出了现有方法引入不必要空间约束的问题,提出了两种攻击方法来解决,分别是:PAA和GAA,这两种方法通过对齐source和target的高阶统计,而不是对齐它们的欧式距离。3. How?
75 | 引入和MMD,它解决的是two-sample problem。4. How much?
76 | 在ImageNet上表现SOTA。5. What then?
77 | 文章没有提到。但这篇文章的工作很solid,行文也很清晰,值得follow。
78 | # 17: 20220511
79 | ### Title: Intriguing properties of neural networks
80 | ### Venue: ICLR 2014
81 | 该paper主要是发现了以下两个有趣的性质:①神经网络中携带语义信息的不是某单个神经元,而是整个网络(或者说那一层)所表示的空间;②给样本添加一些轻微的扰动,会导致神经网络模型错误分类,这些样本就称为对抗样本(一般认为这篇paper是对抗样本的开山之作)
82 | # 18: 20220512
83 | ### Title: Explaining and Harnessing Adversarial Examples
84 | ### Venue: ICLR 2015
85 | 本文提出FGSM(fast gradient sign method)攻击算法,该算法通过修改输入图像的像素值使得修改后的图像能够扰乱分类网络的得分。具体做法是:一方面是基于输入图像计算梯度,另一方面在更新输入图像时是加上梯度,而不是减去梯度,这和常见的分类模型更新参数正好背道而驰,以此使模型产生错误的预测结果。
86 | # 19: 20220512
87 | ### Title: Adversarial examples in the physical world
88 | ### Venue: ICLR 2017
89 | FGSM算法从梯度的角度做攻击,速度比较快,这是该算法比较创新的地方。但是FGSM算法只涉及单次梯度更新,有时候单次更新并不足以攻击成功,因此,在此基础上推出迭代式的FGSM,这就是I-FGSM(iterative FGSM)。在该篇论文中提出了目标攻击,将输入图像分类成原本最不可能分到的类别。相比FGSM算法,I-FGSM算法的攻击成功率提升得还是非常明显的。
90 | # 20: 20220512
91 | ### Title: DeepFool: a simple and accurate method to fool deep neural networks
92 | ### Venue: CVPR 2016
93 | 本文为Adversary Attack方向的一篇经典论文。算法名为DeepFool,其目标是寻求最小的扰动来达到生成对抗样本的目标。这是一种untargeted attak,该算法是通过寻求当前的点在高维空间中离所有非真实类的决策边界中最近的一个,来作为攻击后的label。
94 | # 21: 20220513
95 | ### Title: Towards Evaluating the Robustness of Neural Networks
96 | ### Venue: SP 2017
97 | 该篇论文证明defensive distillation不能显著地提高模型的鲁棒性,并提出3种新的攻击算法,可以在distilled和undistilled神经网络达到100%的攻击成功率。它把构建对抗样本的过程转化为一个最优化问题。
98 | # 22: 20220513
99 | ### Title: Accessorize to a Crime: Real and Stealthy Attacks on State-of-the-Art Face Recognition
100 | ### Venue: ACM SIGSAC 2016
101 | 本文从物理空间攻击人脸识别系统,攻击的方法使佩戴特殊的、具有攻击性的眼镜。
102 | # 23: 20220513
103 | ### Title: Advhat: Real-world adversarial attack on arcface face id system
104 | ### Venue: ICPR 2021
105 | 本文从物理空间攻击人脸识别系统,攻击的方法使佩戴具有攻击性的帽子。
106 | # 24: 20220513
107 | ### Title: Adv-Makeup: A New Imperceptible and Transferable Attack on Face Recognition
108 | ### Venue: IJCAI 2021
109 | 本文从物理空间攻击人脸识别系统,攻击的方法是采用具有攻击性的妆容。
110 | # 25: 20220513
111 | ### Title: Making an Invisibility Cloak: Real World Adversarial Attacks on Object Detectors
112 | ### Venue: ECCV 2020
113 | 作者关注生成的patch在不同模型之间的迁移性,在不同数据集之间的迁移性,并且做了详尽的实验,实现了physical adversarial attach。
114 | # 26: 20220514
115 | ### Title: DVS-Attacks: Adversarial Attacks on Dynamic Vision Sensors for Spiking Neural Networks
116 | ### Venue: IJCNN 2021
117 | 这篇文章攻击的模型是Spiking Neural Networks(脉冲神经网络)。数据来源是DVS(Dynamic Vision Sensors) camera。这种摄像头可以记录时间序列的信息。
118 | # 27: 20220516
119 | ### Title: Adversarial Texture for Fooling Person Detectors in the Physical World
120 | ### Venue: CVPR 2022
121 | 这篇文章提出在利用patch攻击目标检测模型时,会出现部分缺失问题,通俗一点讲就是随着摄像头视角的变化,对抗patch只有一部分或者全部都无法被摄像头捕获到,从而无法完成攻击。即对抗patch无法进行多视角的攻击。为了解决这个问题,本文提出了Adversarial Texture,一种覆盖在衣物表面的纹理,当人们穿上印有Adversarial Texture的衣服时,无论在哪一个角度,检测模型都无法识别到。生成Adversarial Texture是一个two-stage方法,其中stage one负责训练一个可以扩展的生成器,给该生成器输入一个随机变量z,它可以生成任意形状的对抗patch。stage two负责优化变量z以提高对抗patch的攻击性。在数字空间和物理空间的实验结果显示,当一个人穿着本文方法生成的Adversarial Texture所覆盖的衣服时,在监控摄像头视野范围内转圈或者做出不同姿态,都不会被检测到。
122 | # 28: 20220516
123 | ### Title: Naturalistic Physical Adversarial Patch for Object Detectors
124 | ### Venue: ICCV 2021
125 | 为了生成更自然的adversarial patch,作者使用在自然数据集(eg. imagenet)训练好的BigGAN(或StyleGAN)来生成具有攻击性的patch。优化的参数是输入generator的latent space code,而不是GAN网络的参数。整篇文章的思路循规蹈矩,但结果很好,实验做得很充实全面。
126 | # 29: 20220517
127 | ### Title: Infrared Invisible Clothing: Hiding from Infrared Detectors at Multiple Angles in Real World
128 | ### Venue: CVPR 2022
129 | 采用气溶胶做成的衣服攻击热红外行人检测系统,达到多角度攻击的效果。生成攻击texture的方法仍然是生成patch的思路。
130 | # 30: 20220517
131 | ### Title: Generating Adversarial yet Inconspicuous Patches with a Single Image
132 | ### Venue: AAAI 2021 (student abstract)
133 | 这个工作的完成版论文是:Inconspicuous Adversarial Patches for Fooling Image Recognition Systems on Mobile Devices,于2019年发表在IEEE Internet of Things Journal。论文方法生成一个几乎透明的patch,是一个GAN-based方法。论文没有提到physical attack,只在White-box and Black-box Attack上有评估结果。论文提出the contextual consistency。
134 | # 31: 20220523
135 | ### Title: Optical Adversarial Attack
136 | ### Venue: ICCV 2021
137 | 作者提出利用投影仪(projector)将structured illumination投射到物理上,进而达到攻击效果,这个方法是一个projector-camera model。并且好处是不用直接接触物体(例如贴patch),而且得益于光的传播速度非常快,攻击可以在很短时间内完成。
138 | # 32: 20220527
139 | ### Title: Semantic Adversarial Examples
140 | ### Venue: CVPRW 2018
141 | 本文通过将image从RGB空间转移到HSV空间,生成Semantic Adversarial Examples,在搜索时只改变H和S,以保证图像的语义结构。生成的对抗样本,人的视觉仍然可以辨认出图像中的物体,但是分类模型会给出错误的预测。
142 | # 33: 20220528
143 | ### Title: Attacking Optical Flow
144 | ### Venue: ICCV 2019
145 | 本文首次提出攻击Optical Flow Estimation,并且实现了attack in the real world。本文采用的是patch-based attack。通过实验,本文发现基于encoder-decoder networks的model,面对攻击时非常脆弱,然而攻击对spatial pyramid networks的影响很小,对传统的非deep learning方法的影响也很有限。
146 | # 34: 20220530
147 | ### Title: A Survey on Universal Adversarial Attack
148 | ### Venue: IJCAI 2021
149 | 作者对UAP(Universal Adversarial Perturbations)进行综述,UAP指一个perturbation可以在很多image上欺骗target model。文章介绍了什么是UAP,并且对UAP的方法进行罗列、分类、评论和防御。讨论了关于UAP为什么存在的一些研究。讨论了UAP面对的挑战。最后列举了UAP在别的工作上的研究(本文是在image classifier),如semantic segmentation,video recognition,video recognition,Audio Classification。
150 | # 35: 20220531
151 | ### Title: NAG: Network for Adversary Generation
152 | ### Venue: CVPR 2018
153 | 本文提出用GAN的结构生成universal adversarial perturbations,该方法用了两个loss,一个控制攻击,一个控制生成结果的diversity。攻击的分类任务,在digital space。主要贡献1是首次证明可以通过一个生成模型来建模某个classifier的adversarial perturbation的分布,2是经验上地证明生成模型可以capture到perturbation的分布,生成了多样化的perturbation。
154 | # 36: 20220601
155 | ### Title: Adversarial Imaging Pipelines
156 | ### Venue: CVPR 2021
157 | 作者提出了一个新的工作,对相机捕获到的RAW image进行攻击,由于相机会对RAW image进行后续的ISP,所以作者提出的攻击可以不受ISP的影响。作者用U-Net构建了Differentiable Proxy ISPs,用来得到ISP的近似梯度。实验部分搭建了捕获数据的平台,有一个相机拍摄屏幕上的图像,获得RAW image,然后将adversarial perturbations直接添加到RAW image上面。作者攻击的是classification任务。
158 | # 37: 20220616
159 | ### Title: Shadows can be Dangerous: Stealthy and Effective Physical-world Adversarial Attack by Natural Phenomenon
160 | ### Venue: CVPR 2022
161 | 本文提出一种新的对抗攻击方式:用影子进行攻击,这是一种基于光学的方式。之所以用影子,是为了满足攻击的隐蔽性,影子不容易引起人注意。作者在digital domain上建模如何向image上添加影子,影子的shape是多边形,多边形的坐标是在训练过程中优化得到的,影子的value是可以调节的超参数。在训练时,作者发现会出现梯度爆炸或者梯度消失的情况,因此作者采用了粒子群算法来寻找最优解。作者分别在digital domain和physical domain上做了实验,结果显示在untargeted attack上,攻击的成功率非常高。本文代码开源。
162 | # 38: 20220630
163 | ### Title: Harnessing Perceptual Adversarial Patches for Crowd Counting
164 | ### Venue: ACM CCS 2022
165 | 1. Why? 尚没有人研究Crowd Counting任务的鲁棒性。
166 | 2. What? 采用adversarial patch对Crowd Counting Model进行攻击,并且在physical world中有效。
167 | 3. How? 传统的patch-based attack,设计了针对该任务的loss。
168 | 4. How much? at most +685.7 MAE and +699.5 MSE
169 | 5. What then? 无
170 | # 39: 20220723
171 | ### Title: Physical Attack on Monocular Depth Estimation with Optimal Adversarial Patches
172 | ### Venue: ECCV 2022
173 | 本文提出对单目深度估计(Monocular Depth Estimation)任务的攻击,是patch-based方法。可以在physical world实现攻击。首先,为了定位感受野的敏感区域,作者设计了一种优化区域的策略,参数是patch四个顶点的位置。然后,为了使模型估计target的位置更远,作者设计了相应的目标函数。在隐蔽性方面,作者从patch size minimization和natural appearance两方面考虑,采用了风格迁移技术。本文首次在physical world中实现对单目深度估计任务的攻击。
174 | # 40: 20220725
175 | ### Title: Threat Model-Agnostic Adversarial Defense using Diffusion Models
176 | ### Venue: Arxiv 202207
177 | 本文提出了一个adversarial defense方法,该方法属于preprocessing method,即对输入model的example进行预处理。具体做法:作者使用diffusion model对input image进行重建,从而破坏或者去除image上的perturbation,从而达到防御目的。
178 | # 41: 20220728
179 | ### Title: Watermark Vaccine: Adversarial Attacks to Prevent Watermark Removal
180 | ### Venue: ECCV 2022
181 | 本文提出水印疫苗,攻击水印去除网络,是对抗攻击技术一个典型的应用场景。作者提出两种攻击方式,一是Disrupting Watermark Vaccine(DWV,破环性水印疫苗),可以使水印去除网络的输出变为被破坏的图片;二是Inerasable Watermark Vaccine(IWV,才不掉的水印),可以使水印去除网络失效,水印去不掉,而且不影响图像其它区域。这是首次把对抗攻击应用到该应用的工作。
182 | # 42: 20220801
183 | ### Title: Adversarial Zoom Lens:A Novel Physical-World Attack to DNNs
184 | ### Venue: Arxiv 202206
185 | 本文提出了一种新的攻击,AdvZL,这种攻击无需任何perturbation,只通过zoom in和out即可实现对DNN-based classifer的攻击。作者提出了一个基于Imagenet的数据集,Imagenet-ZOOMIN,这个数据集将Imagenet中的图像进行了不同尺度的zoom in。通过在数字和物理空间上的实验,验证了这种攻击方式的有效性。该方法从一定程度上展示出了DNN在面对图像尺度缩放时的局限性。
186 | # 43: 20220923
187 | ### Title: GAMA: Generative Adversarial Multi-Object Scene Attacks
188 | ### Venue: NeurIPS 2022
189 | 本文将vision-language model CLIP引入了attack方法的pipeline中,CLIP作为一个tool,作者利用其语义建模能力,将生成的adversarial example通过一个代理模型,转换为text输入到CLIP的text encoder中,然后将original image输入到image encoder中,通过最小化对比学习中的similarity,达到攻击的目的。本文关注的是Multi-Object Scene,这也是和之前关注single-object scene的方法的区别之一。
190 | # 44: 20220923
191 | ### Title: Adversarial Color Projection: A Projector-Based Physical Attack to DNNs
192 | ### Venue: Arxiv 202209
193 | 由于当前多数的physical attack都是基于sticker的,他们很难做到隐蔽,因此作者提出一种light-based attack,采用projector-based方法,改变victim object表面的light,以此来发动攻击。本文方法命名为AdvCP。
194 | # 45: 20220924
195 | ### Title: Moiré Attack (MA): A New Potential Risk of Screen Photos
196 | ### Venue: NIPS 2021
197 | 本文提出摩尔纹可能会变为一种潜在的风险,并做了实验验证这一想法。作者提出Moire Attack,在digital space中,采用一种可控的摩尔纹生成算法,将其添加到imagenet数据集中的图像上。然后将添加摩尔纹之后的图像输入到Inception-V3网络中,根据输出反传回摩尔纹生成的过程,直到攻击达成。该攻击达到100%和97% ASR的untargeted attack和targeted attack,同时,由于摩尔纹是一种常见现象,因此该攻击不容易被发现。然而,这是一种digital attack,在physical space中添加摩尔纹,是难以实现的。这篇文章的写作非常精简清晰,值得参考。
198 | # 46: 20220927
199 | ### Title: Catoptric Light can be Dangerous: Effective Physical-World Attack by Natural Phenomenon
200 | ### Venue: Arxiv 202209
201 | 本文提出一个light-based physical attack方法在夜间攻击sign classifier: adversarial catoptric light (AdvCL)。AdvCL用反射光,一种自然的现象发动转瞬即逝的攻击,隐蔽性好。它提出一种遗传算法来优化反射光的物理参数:Location, Color, Intensity。
202 | # 47: 20220928
203 | ### Title: FG-UAP: Feature-Gathering Universal Adversarial Perturbation
204 | ### Venue: IJCNN 2023
205 | 本文利用神经塌陷(Neural Collapse)来使UAP(Universal Adversarial Perturbation)获得更强的攻击力。具体的做法是,输入一个batch的benign images,得到网络最后一层的features。然后在输入的images上添加perturbation,得到adversarial examples,然后输入网络,得到最后一层的features,根据两次得到的features计算FG-Loss。
206 | # 48: 20220928
207 | ### Title: Suppress with a Patch: Revisiting Universal Adversarial Patch Attacks against Object Detection
208 | ### Venue: Arxiv 202209
209 | 本文用adversarial patch来攻击object detection model。title中suppress一词的含义是镇压detector使其检测不到object。具体地,本文实现了一种位置无关的patch,评估了三种可能的patch粘贴方式:a fixed position, dynamic window approach, and random patch placement。本文工作和现有工作的区别:本文利用一个patch来镇压所有object。
210 | # 49: 20221001
211 | ### Title: A Survey on Physical Adversarial Attack in Computer Vision
212 | ### Venue: Arxiv 202209
213 | 浙江大学Donghua Wang。本文总结了物理对抗攻击在三个任务中的进展:Image recognition task,Object detection task,Semantic segmentation task。罗列了当前研究在提高物理对抗攻击性能方面的一些技术。
214 | # 50. 20221003
215 | ### Title: Physical Adversarial Attack meets Computer Vision: A Decade Survey
216 | ### Venue: Arxiv 202210
217 | 近年来,计算机视觉领域涌现出大量对抗攻击的工作,它们暴露了DNN-based model的脆弱性,并引起学术界和工业界对Trustworthy AI的关注。其中,发生在物理世界中的对抗攻击(physical adversarial attack)由于其在真实世界的可操作性,尤其引起人们担忧。物理对抗攻击方法多样、形式多变,但目前仍没有综述工作系统性地讨论、评估和总结该领域的发展情况和前沿研究。在本文中,我们首次关注物理对抗攻击在计算机视觉领域的进展,通过对150+篇论文的分析,提供了一个系统的综述。我们发现,在所有的物理对抗攻击方法中,携带扰动的介质(如Patch, Eyeglass, Light等)是必不可少的,于是我们提出一个新的概念:对抗介质(Adversarial medium),并围绕它,在图像分类(Classification)、检测(Detection)和重识别(Re-Identification)三大主流任务上,讨论分析了当前攻击方法的Effectiveness、Stealthiness和Robustness。并且,我们以攻击person detector为例,总结了发动物理对抗攻击的关键因素。在此基础上,我们讨论了当前物理对抗攻击领域面对的挑战和一些潜在的机会。
218 | # 51. 20221004
219 | ### Title: Untargeted, Targeted and Universal Adversarial Attacks and Defenses on Time Series
220 | ### Venue: IJCNN 2020
221 | 本文对time series classification models进行targeted, untargeted, and universal adversarial attack。实验结果显示传统的攻击方法如FGSM和BIM可以在该任务上取得很高的攻击成功率。采用的数据集是UCR time series datasets。文中有对adversarial attack如何分类进行了说明。
222 | # 52. 20221004
223 | ### Title: GhostImage: Remote Perception Attacks against Camera-based Image Classification Systems
224 | ### Venue: USENIX 2020
225 | 本文提出一种攻击方式:remote perception attacks。具体指用投影仪将对抗图案投射到目标物体上,从而导致后续的检测和分类任务预测错误。作者生成他们的方法用到了光学效应,即镜头光斑和自动曝光控制,使这种攻击在大多数相机上都有效。本篇文章的写作,可以在后续使用light进行攻击的工作中借鉴。
226 | # 53. 20221004
227 | ### Title: Adversarial Objects Against LiDAR-Based Autonomous Driving Systems
228 | ### Venue: Arxiv 2019
229 | # 54. 20221007
230 | ### Title: Natural Color Fool: Towards Boosting Black-box Unrestricted Attacks
231 | ### Venue: NIPS 2022
232 | # 55. 20221007
233 | ### Title: Over-the-Air Adversarial Flickering Attacks against Video Recognition Networks
234 | ### Venue: CVPR 2021
235 | # 56. 20221007
236 | ### Title: Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm
237 | ### Venue: PMLR 2021
238 | # 57. 20221008
239 | ### Title: Part-Based Models Improve Adversarial Robustness
240 | ### Venue: Arxiv 202210
241 | # 58. 20221008
242 | ### Title: Invisible Mask: Practical Attacks on Face Recognition with Infrared
243 | ### Venue: Arxiv 2018
244 | # 59. 20221008
245 | ### Title: VISUAL PRIVACY PROTECTION BASED ON TYPE-I ADVERSARIAL ATTACK
246 | ### Venue: Arxiv 202209
247 | # 60. 20221009
248 | ### Title: Perceptual Attacks of No-Reference Image Quality Models with Human-in-the-Loop
249 | ### Venue: NIPS 2022
250 | # 61. 20221009
251 | ### Title: On Attacking Out-Domain Uncertainty Estimation in Deep Neural Networks
252 | ### Venue: Arxiv 202210
253 | 1. Why?
254 | 2. What?
255 | 3. How?
256 | 4. How much?
257 | 5. What then?
258 | # 62. 20221009
259 | ### Title: WaveSpy: Remote and Through-wall Screen Attack via mmWave Sensing
260 | ### Venue: 2020 IEEE Symposium on Security and Privacy
261 | 本文设计了一种可以远程甚至是隔墙的窥屏技术WaveSpy。该技术利用在远程毫米波传感器下的液晶响应效应,是一种end to end层级系统。作者实验评估了这种屏幕攻击的效果,结果显示在真实世界中,WaveSpy实现了99%的屏幕内容类型识别和87.7%的敏感信息检索。作者把该任务称为Screen Attack。
262 | # 63. 20221011
263 | ### Title: Universal Adversarial Perturbations: Efficiency on a small image dataset
264 | ### Venue: Arxiv 202210
265 | 这篇论文详细记录了复现一篇UAP论文(CVPR 2017)的过程。文章写作非常清晰,描述了很多细节,是一个很好的实验参考和写作参考。在复现的基础上,本文还分析了dominant labels,并和一些方法做了对比,提出了自己的一些思考。
266 | # 64. 20221014
267 | ### Title: Interpreting Attributions and Interactions of Adversarial Attacks
268 | ### Venue: ICCV 2021
269 | 本文从归因的角度分析了对抗攻击。作者计算了对抗性攻击的区域属性,进一步定义和提取了扰动像素之间的相互作用,并根据相互作用将扰动图分解为扰动组件。作者发现,L2 攻击的区域归因和 L2 扰动的大小相似,而 L∞ 攻击的区域归因和 L∞ 扰动的大小不同。对扰动成分的提取表明,扰动成分与视觉概念并不一致。作者发现,与正常训练的DNN相比,对抗训练的DNN在前景中有更多的扰动成分。此外,与正常训练的DNN相比,对抗训练的DNN容易降低真实类别的得分,而不是增加目标类别的得分。
270 | # 65. 20221014
271 | ### Title: Evaluating the Robustness of Semantic Segmentation for Autonomous Driving against Real-World Adversarial Patch Attacks
272 | ### Venue: WACV 2022
273 | 本文首次在physical world中攻击Semantic Segmentation任务。所提方法是一个中规中矩的patch-based attack方法。关注的是real-world driving scenario。通过实验结果,本文得出一个结论:Semantic Segmentation Model在physical world中有较强的robustness,patch-based attack的效果在real world中并不好。
274 | # 66. 20221015
275 | ### Title: Too Good to Be Safe: Tricking Lane Detection in Autonomous Driving with Crafted Perturbations
276 | ### Venue: USENIX 2021
277 | 本文首次攻击Lane Detection任务,并在physical world中实现了。本文首先在数字世界中寻找最好的扰动,具体地,建立了一个基于摄动的可见度和相应检测车道的可见度的优化问题,以找到最优的可导致虚假车道但不被人类感知的摄动。然后,根据数字世界的最佳干扰,在现实世界中部署标记,然后评估对真实车辆的攻击。本文在一辆特斯拉S型汽车上进行了大量的实验,实验结果表明车道检测模块可以被非常不显眼的扰动欺骗,从而创建车道,在自动转向模式下误导车辆。
278 | # 67. 20221015
279 | ### TItle: Pre-trained Adversarial Perturbations
280 | ### Venue: NIPS 2022
281 | 1. Why? Large-scale pre-trained models在NLP和CV都大放异彩,采用预训练到微调的模式,而不是从头开始培训,已成为一种新兴趋势。然而关于pre-trained models对对抗样本的鲁棒性,却很少人研究。
282 | 2. What? 本文提出Pre-trained Adversarial Perturbations (PAPs),一种新的adversarial perturbation,专门为pre-trained models而设计。这种perturbation可以有效地攻击下游任务。
283 | 3. How? 为了生成PAP,本文提出Low-Level Layer Lifting Attack (L4A)。
284 | 4. How much? 在SimCLR、MOCO、CLIP等model上取得出色结果。
285 | # 68. 20221017
286 | ### TItle: Face Pasting Attack
287 | ### Venue: Arxiv 202210
288 | 本文只有4页,但论文的各个部分都有,主要内容是记录了参加的一个比赛所用的方法,他们在比赛中取得了第三名的成绩。该比赛关注攻击人脸识别模型,提供了API接口。文中有介绍该比赛的部分。作者采用的方法非常直接,代码开源。
289 | # 69. 20221018
290 | ### TItle: Learning Coated Adversarial Camouflages for Object Detectors
291 | ### Venue: IJCAI 2022
292 | 本文分析了利用patch进行攻击的弊端:在3D object上多视角攻击下性能会降低。基于此,提出了Coated Adversarial Camouflages。作者提出dense proposals attack strategy,而且建立了一个Unity simulation scene来评估攻击性。在physical world,作者利用3D打印技术,将生成的camouflage印在3D object上,用以评测physical attack的效果。
293 | # 70. 20221019
294 | ### TItle: 360-Attack: Distortion-Aware Perturbations from Perspective-Views
295 | ### Venue: CVPR 2022
296 | 作者提出在spherical images上添加扰动,生成spherical adversarial example。spherical images是有全景相机采集到的,近年来被广泛应用。在处理spherical images时,有两类方法,一类是先把spherical images投影为2D images,然后再进行后续的处理;另一类是直接在spherical image domain上进行处理。本文采用方法中规中矩,但这个工作是adversarial attack与新领域的结合。实验评估时,作者攻击了3D Object Classification任务。
297 | # 71. 20221020
298 | ### Title: Attacking Motion Estimation with Adversarial Snow
299 | ### Venue: ECCV Workshop 2022
300 | 本文针对motion estimation algorithms,设计了一个differentiable snowflake renderer来生成adversarial example。本文探索optical flow methods在真实世界的鲁棒性,例如在下雪的环境中。不同于以往方法在图像上添加2D per-pixel perturbations,该方法通过优化3D spatial positions of snowflakes in the scene,生成的adversarial example不仅攻击性好,而且视觉上是自然的。
301 | # 72. 20221028
302 | ### Title: Isometric 3D Adversarial Examples in the Physical World
303 | ### Venue: NIPS 2022
304 | 本文探索在物理空间对3D点云识别模型的攻击。为了提高3D adversarial example的naturalness,作者约束其在一个$\epsilon$-isometric内。为了提高robustness under physical world,作者提出maxima over transformation (MaxOT) method来search最harmful的transformations。物理攻击的实验策略如下:在数字空间生成3d adversarial example,然后采用3d打印技术生成这些example,生成之后再对其进行扫描,把扫描的点云数据输入识别模型进行攻击。
305 | # 73. 20221028
306 | ### Title: Toward Understanding and Boosting Adversarial Transferability From a Distribution Perspective
307 | ### Venue: TIP 2022
308 | 1. Why? 现有研究已经提出了很多方法来增强对抗迁移性,但是迁移性的原因依旧是未解之谜。无目标攻击对抗样本的迁移性在源模型和目标模型结构相似时效果尚佳,但是如果模型结构差异较大时效果下降明显,如从 CNN 迁移到 ViT。有目标攻击场景下,使用迭代方法产生的对抗样本的迁移性非常低,目前效果最佳的方法是基于生成模型的方法,需要针对每一个目标类别训练生成模型。
309 | 2. What? 考虑到在做图像识别时,模型架构是多种多样的,但是它们都有一个共同的点--训练数据集是服从相同分布的。深度学习中有一个典型的假设“独立同分布”,即验证集的数据与训练集的数据虽然是独立的,但是是服从相同的数据分布的。不同模型都期待能够将属于特定分布的图像分类为特定类别,比如将来自于“猫”类别的图像预测为“猫”。但是如果样本是一个分布外样本(out-of-distribution),深度模型往往难以给出准确的预测。因此本文提出从data distribution的角度理解adversarial transferability。此外,本文提出一个匹配模型梯度和数据分布梯度的方法。
310 | 3. How? 本文提出应该从数据分布的视角来理解迁移性,如果无目标攻击能够使数据成为分布外样本,那么不同的模型都将难以识别该样本,这样的无目标攻击应该具有更强的迁移性;如果有目标攻击能够使数据成为目标分布内的样本,那么不同的模型都倾向于将该样本分类为目标类。
311 | 4. How much? 现有最佳基于生成模型的攻击方法TTP成功率是46.47%,而本文方法可以达到75.93%的成功率,超过现有最佳方法 29.46%。目前有目标迁移性攻击效果最佳的方法。
312 | 5. What then? 文中没有提到。个人考虑:从数据分布的角度考虑adversarial attack。
313 | # 74. 20221031
314 | ### Title: Adversarial Patch Attack on Multi-Scale Object Detection for UAV Remote Sensing Images
315 | ### Venue: remote sensing
316 | 1. Why? 目前,针对遥感图像的攻击有如下挑战:当前大多数都关注digital attack;遥感图像的number of objects比images captured on the ground要多,因此adversarial effect on all objects更有难度;遥感图像中objects的size有很大不同。
317 | 2. What? 本文formulate a joint optimization problem来生成更有攻击力的adversarial patch,并且提出scale factor来rescale对抗补丁。在物理空间做了实验。
318 | 3. How? 在物理空间的实验,采集数据设备是一台DJI Mini 2。方法和主流的adversarial patch attack类似。
319 | 4. How much? 攻击了YOLO-v3和YOLO-v5。
320 | 5. What then? 在physical space中,高度变化会带来攻击性能的下降。
321 | # 75. 20221101
322 | ### Title: Benchmarking Adversarial Patch Against Aerial Detection
323 | ### Venue: Arxiv 202211
324 | 1. Why? 当前的patch攻击方法是time-consuming, high computation costs; 迁移到物理空间性能会降低等。
325 | 2. What? 提出了对aerial detection任务的攻击,采用的是patch-based attack。
326 | 3. How? 本文在多个detector上做实验。
327 | 4. How much? AP下降87.86% and 85.48% in white-box and blackbox settings, respectively。
328 | 5. What then? search patch的最优位置和形状。
329 | # 76. 20221108
330 | ### Title: Diversified Adversarial Attacks based on Conjugate Gradient Method
331 | ### Venue: ICML 2022
332 | 该论文中作者借鉴对此类问题有效的共轭梯度方法,并提出了一种基于共轭梯度法方法新的对抗攻击算法。其实在大学的最优化课程里,会涉及学到最速下降法,共轭梯度法 ,以及拟牛顿法。作者很好的将共轭梯度法应用到了对抗攻击中去。
333 | 实验结果表明,对于大多数模型,论文提出的方法比现有的SOTA算法能够以更少的迭代次数找到更优的对抗样本,而且论文所提出方法的更多样化的搜索显著提高了对抗攻击的成功率。
334 | 共轭梯度法一般用于求解线性问题,之后又被延伸用于求解最小化凸二次型问题和一般的非线性问题。共轭梯度法可以用在无约束和投影有约束问题中。
335 | # 77. 20221110
336 | ### Title: Poster: On the System-Level Effectiveness of Physical Object-Hiding Adversarial Attack in Autonomous Driving
337 | ### Venue: ACM CCS 2022
338 | 1. Why? 当前在自动驾驶任务中的object-hiding adversarial attacks能否真正地完成对real-world自动驾驶系统产生影响尚不明确,原因是这些attacks往往都只关注对AI组件的攻击,而不是整个闭环系统。因此本文对这些attacks在系统层面做了comprehensive measurement study。
339 | 2. What? 证明了当前的方法无法攻击自动驾驶系统。
340 | 3. How? 本文选择STOP sign-hiding attack作为评估的对象,选择了两种方法,在PASS (Platform for Autonomous driving Safety and Security) platform上进行评估。
341 | 4. How much? 结果显示,测试的两种攻击方法都不能带来任何system-level impact in AD system。
342 | 5. What then? 对更多的方法进行the measurement study,然后指导设计出better achieve the system-level effects in the AD.
343 | # 78. 20221111
344 | ### Title: Assessing the Impact of Transformations on Physical Adversarial Attacks
345 | ### Venue: ACM AISec 2022
346 |
347 | # 79. 20221112
348 | ### Title: TPatch: A Triggered Physical Adversarial Patch
349 | ### Venue: USENIX 2023
350 | 本文提出一种触发式的物理对抗攻击。由于之前的攻击方法是无差别攻击,对于每一个经过的目标都进行攻击,这种设置会增大暴露攻击的风险,因此作者提出一种可以控制的攻击(当trigger激活时攻击,没有激活时不攻击)。本文最大的挑战是如何设计trigger。作者利用声音信号干扰自动驾驶系统的成像,形成的blur作为trigger。在此基础上进行优化patch。本文提出了三种攻击,有hiding, creating or altering attack。
351 | # 80. 20221112
352 | ### Title: Poltergeist: Acoustic Adversarial Machine Learning against Cameras and Computer Vision
353 | ### Venue: IEEE Symposium on Security and Privacy (SP) 2021
354 | 1. Why? 在自动驾驶场景中,未来提高系统的稳定性,会增加一些除视觉传感器之外的传感器,例如为了deblur的惯性传感器。
355 | 2. What? 本文提出一个system-level vulnerability,并针对这一点进行攻击自动驾驶任务中的检测器。
356 | 3. How? 作者利用Acoustic Waves干扰惯性传感器,使系统拍出来的照片带有blur,以此达到攻击的效果。
357 | 4. How much? 在4个academic object detector: YOLO V3/V4/V5 and Fast R-CNN和一个ommercial detector: Apollo,进行了实验的评估。
358 | 5. What then? 本文列举了一系列类似的攻击措施,统称为PG attacks,有一些潜在的机会。
359 | # 81. 20221114
360 | ### Title: Fooling the Eyes of Autonomous Vehicles: Robust Physical Adversarial Examples Against Traffic Sign Recognition Systems
361 | ### Venue: NDSS 2022
362 | 作者提出当前的对抗样本大多数是针对数字空间,并且是静态的,而real world的应用,例如交通标志牌识别系统,距离和位置是在持续变化的,导致当前数字的对抗样本在物理识别失效。为了解决这一问题,作者从三个方面增强鲁棒性:第一,用blur transformation 和 the resolution transformation对车辆上的camera进行仿真;第二,作者设计一个bounding box filter来提高扰动训练的效率;第三,作者考虑了四种representative attack vectors,即Hiding Attack (HA), Appearance Attack (AA), Non-Target Attack (NTA) and Target Attack (TA)。
363 | # 82. 20221115
364 | ### Title: Attacking Face Recognition with T-shirts: Database, Vulnerability Assessment and Detection
365 | ### Venue: arXiv 202211
366 | 文章关注人脸识别算法的安全性。作者提出一种攻击方式被称为presentation attacks,通过在T-shirt上印一张人脸图像,攻击face recognition systems。作者制作了一个database,里面包含1608个T-shirt attacks。评估结果显示一些state-of-theart attack detection mechanisms trained on popular benchmark面对这种攻击时无法保持鲁棒性。此外,作者还提出三种方法来检测这类攻击。
367 | # 83. 20221115
368 | ### Title: Butterfly Effect Attack: Tiny and Seemingly Unrelated Perturbations for Object Detection
369 | ### Venue: arXiv 202211
370 | 本文提出了Butterfly Effect Attack,探索不相干的perturbation对与detector的影响。具体的,作者将perturbation添加到图像的左侧,然而图像右侧的object在detector检测时也会收到干扰。通过在KITTI dataset上评估了yolov5和DETR两种检测器。作者定义了三个目标函数:Small perturbation,Performance degradation和Degree of unrelated perturbation,通过genetic algorithm来优化生产扰动。
371 | # 84: 20221118
372 | ### Title: Towards Good Practices in Evaluating Transfer Adversarial Attacks
373 | ### Venue: arXiv 202211
374 | 本文关注在transfer adversarial attack研究中,不同攻击方法之间的对比非常difficult,并且新的攻击方法提出时,和旧的攻击方法对比的设置常常是unsystematic并且unfair。第二,当前transfer adversarial attack方法在评估时,忽略了stealthiness的对比。因此,本文提出了一个Good Practices来解决这些限制。本文评估了23中transfer attack方法在9种defense方法的表现,基于这些,作者分析了结果,提出了新的findings。
375 | # 85: 20221118
376 | ### Title: Meta-Attack: Class-agnostic and Model-agnostic Physical Adversarial Attack
377 | ### Venue: ICCV 2021
378 |
379 |
380 | # 86: 20221119
381 | ### Title: Adversarial Sensor Attack on LiDAR-based Perception in Autonomous Driving
382 | ### Venue: ACM CCS 2019
383 | 本文首次研究应用的自动驾驶中LiDAR的安全性。具体地,本文的攻击目标是在AV系统的前方添加一个不存在的障碍物,以此改变其行驶决策。该方法通过控制spoofed points来欺骗深度学习模型,将攻击建模为一个优化问题。本文工作量很大,共13页。
384 | # 87: 20221130
385 | ### Title: Imperceptible Adversarial Attack via Invertible Neural Networks
386 | ### Venue: AAAI 2023
387 | 本文利用Invertible Neural Networks(可逆神经网络)生成adversarial example。作者将现有的方法总结为两类:Adding adversarial perturbations和Dropping existing information。而本文提出的方法AdvINN一方面向 benign image 中添加 class-specific 信息,另一方面丢弃original class的discriminant信息,目的是生成imperceptible and robust的对抗样本。
388 | # 88: 20221230
389 | ### Title: Simultaneously Optimizing Perturbations and Positions for Black-box Adversarial Patch Attacks
390 | ### Venue: TPAMI 2022
391 | 本文攻击Face Recognition (FR) task。作者观察到当前的patch-based攻击方法要么是固定位置优化扰动,要么是固定扰动优化位置,由此得出位置和扰动对于攻击都是重要的。所以本文采用强化学习的策略来同时优化位置和扰动。本文考虑了攻击成功率和query的次数两个性能指标。本文验证了所提方法可以在物理空间实现攻击。本文方法不但可以攻击FR task,还可以扩展到traffic sign recognition task。
392 | # 89: 20230103
393 | ### Title: Do Adaptive Active Attacks Pose Greater Risk Than Static Attacks?
394 | ### Venue: WACV 2023
395 | # 90: 20230103
396 | ### Title: Phantom Sponges: Exploiting Non-Maximum Suppression to Attack Deep Object Detectors
397 | ### Venue: WACV 2023
398 | # 91: 20230103
399 | ### Title: Robustness of Trajectory Prediction Models Under Map-Based Attacks
400 | ### Venue: WACV 2023
401 | # 92: 20230104
402 | ### Title: Experimental quantum adversarial learning with programmable superconducting qubits
403 | ### Venue: Nature Computational Science 202211
404 | # 93: 20230220
405 | ### Title: Boosting Transferability of Physical Attack against Detectors by Redistributing Separable Attentions
406 | ### Venue: Pattern Recognition 2023
407 | # 94: 20230220
408 | ### Title: TransPatch: A Transformer-based Generator for Accelerating Transferable Patch Generation in Adversarial Attacks Against Object Detection Models
409 | ### Venue: ECCVW 2022
410 | # 95: 20230227
411 | ### Title: X-Adv: Physical Adversarial Object Attacks against X-ray Prohibited Item Detection
412 | ### Venue: USENIX Security 2023
413 | # 96: 20230303
414 | ### Title: CBA: Contextual Background Attack against Optical Aerial Detection in the Physical World
415 | ### Venue: arXiv 202303
416 |
417 | # 97: 20230313
418 | ### Title: AdvT-SEAersarial attacks and defenses for visual signals
419 | ### Venue: Nanyang Technological University
420 | Nanyang Technological University,博士学位论文。地址:https://dr.ntu.edu.sg/handle/10356/164772。 本文关注四个DNN-based tasks:natural image classification task,medical image classification task, SOD, Adversarial defense。
421 | # 98: 20230314
422 | ### Title: Patch of Invisibility: Naturalistic Black-Box Adversarial Attacks on Object Detectors
423 | ### Venue: arXiv 202303
424 | # 99: 20230314
425 | ### Title: Adversarial Attack with Raindrops
426 | ### Venue: arXiv 202303
427 | # 100: 20230328
428 | ### Title: Anti-DreamBooth: Protecting users from personalized text-to-image synthesis
429 | ### Venue: arXiv 202303
430 | 文本到图像扩散模型是一场革命,使得任何人,即使没有设计技能,也能从简单的文本输入中创建逼真的图像。通过强大的个性化工具如DreamBooth,它们可以生成特定人物的图像,只需学习他/她的几张参考图像。然而,当滥用时,这样一个强大而便利的工具可以制造虚假新闻或针对任何个人受害者的令人不安的内容,从而造成严重的负面社会影响。在本文中,作者探讨了一种名为Anti-DreamBooth的防御系统,以对抗DreamBooth的恶意使用。该系统旨在在发布每个用户的图像之前对其添加微小的噪声扰动,以破坏对这些扰动图像训练的任何DreamBooth模型的生成质量。本文研究了广泛的扰动优化算法,并在两个面部数据集上对各种文本到图像模型版本进行了广泛的评估。尽管DreamBooth和基于扩散的文本到图像模型的公式化很复杂,该方法有效地保护用户免受这些模型的恶意使用。即使在训练和测试之间存在模型或提示/术语不匹配等不利条件下,它们的有效性也能经受住考验。
431 | # 98: 20230329
432 | ### Title: Universal Physical Adversarial Attack via Background Image
433 | ### Venue: Applied Cryptography and Network Security Workshops 2022
434 |
435 |
436 | # 99: 20230329
437 | ### Title: Decision-based Black-box Attack Against Vision Transformers via Patch-wise Adversarial Removal
438 | ### Venue: NIPS 2022
439 |
440 | # 100: 20230329
441 | ### Title: Adversarial Attack on Attackers: Post-Process to Mitigate Black-Box Score-Based Query Attacks
442 | ### Venue: NIPS 2022
443 |
444 | # 101: 20230329
445 | ### Title: Practical Adversarial Attacks on Spatiotemporal Traffic Forecasting Models
446 | ### Venue: NIPS 2022
447 |
448 | # 102: 20230329
449 | ### Title: On the Robustness of Deep Clustering Models: Adversarial Attacks and Defenses
450 | ### Venue: NIPS 2022
451 |
452 | # 103: 20230329
453 | ### Title: Indicators of Attack Failure: Debugging and Improving Optimization of Adversarial Examples
454 | ### Venue: NIPS 2022
455 |
456 | # 104: 20230329
457 | ### Title: Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation
458 | ### Venue: NIPS 2022
459 |
460 | # 105: 20230329
461 | ### Title: VoiceBlock: Privacy through Real-Time Adversarial Attacks with Audio-to-Audio Models
462 | ### Venue: NIPS 2022
463 |
464 | # 106: 20230329
465 | ### Title: Adv-Attribute: Inconspicuous and Transferable Adversarial Attack on Face Recognition
466 | ### Venue: NIPS 2022
467 |
468 | # 107: 20230329
469 | ### Title: ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial Viewpoints
470 | ### Venue: NIPS 2022
471 |
472 | # 108: 20230329
473 | ### Title: Perceptual Attacks of No-Reference Image Quality Models with Human-in-the-Loop
474 | ### Venue: NIPS 2022
475 |
476 | # 109: 20230329
477 | ### Title: Blackbox Attacks via Surrogate Ensemble Search
478 | ### Venue: NIPS 2022
479 |
480 | # 110: 20230329
481 | ### Title: Natural Color Fool: Towards Boosting Black-box Unrestricted Attacks
482 | ### Venue: NIPS 2022
483 |
484 | # 111: 20230329
485 | ### Title: Towards Lightweight Black-Box Attack Against Deep Neural Networks
486 | ### Venue: NIPS 2022
487 |
488 | # 112: 20230329
489 | ### Title: Learning to Attack Federated Learning: A Model-based Reinforcement Learning Attack Framework
490 | ### Venue: NIPS 2022
491 | 作者提出一种基于Reinforcement Learning的攻击框架,实现untargeted poisoning attacks。本文工作显示了FL系统开发适应性防御的重要性。写作清晰,相关文献总结的也不错,代码开源。
492 | # 113: 20230404
493 | ### Title: Semantic Image Attack for Visual Model Diagnosis
494 | ### Venue: arXiv 202303
495 |
496 |
497 | # 114: 20230404
498 | ### Title: CONTROLLABLE INVERSION OF BLACK-BOX FACE-RECOGNITION MODELS VIA DIFFUSION
499 | ### Venue: arXiv 202303
500 |
501 |
502 | # 115: 20230406
503 | ### Title: Physically Adversarial Infrared Patches with Learnable Shapes and Locations
504 | ### Venue: CVPR 2023
505 | 本文提出了一种对Infrared Person Detector进行攻击的方式。该方法采用一种Infrared Patch,制作材料为气凝胶。如title中提到的,本文方法优化的是Infrared Patch的shape和location两个属性。在实验方面,作者不仅在person detector上进行了测试,还在vehicle detection任务上进行了测试,这个实验是为了凸显方法的generalization。
506 |
507 | # 116. 20230327
508 | ### Title: T-SEA: Transfer-based Self-Ensemble Attack on Object Detection
509 | ### Venue: CVPR 2023
510 | 基于迁移的黑盒攻击方式由于不需要获取目标模型的任何信息,更有利于真实场景的攻击,但成功率也往往更低。许多基于迁移的黑盒攻击依靠多模型集成方式来提高攻击的迁移性,也即,在训练对抗样本阶段,通过集成多个不同的白盒模型,以期训练好的对抗样本能在新的黑盒模型上表现出更强的攻击能力。但这种方式往往需要消耗大量训练时间和资源,同时,要获取同一任务的多个模型,在现实应用中也可能具有一定的实现难度。作者利用对抗补丁来对目标检测模型进行攻击,将对抗补丁贴到检测目标上,使得检测框消失。为了实现在单个白盒模型上训练的对抗补丁的迁移性,本文工作1.发现改变两个简单的训练设置即可对baseline的性能实现一定的提高;2.提出使用自集成(Self-ensemble)策略来充分提高对抗补丁的迁移性。
511 | # 117. 20230603
512 | ### Title: Can You Spot the Chameleon? Adversarially Camouflaging Images from Co-Salient Object Detection
513 | ### Venue: CVPR 2022
514 | 本片工作首次提出攻击CoSOD模型,这是一个新的任务。作者提出联合对抗性曝光和噪声攻击,根据新设计的高特征级对比度敏感损失函数联合和局部调整图像的曝光和附加扰动。该任务对正确保护目前在互联网上共享的大量个人照片有很大的实际好处。此外,有可能被用作评估CoSOD方法稳健性的指标。
515 | # 118. 20230720
516 | ### Title: Shape Matters: Deformable Patch Attack
517 | ### Venue: ECCV 2022
518 |
519 |
520 | # 119. 20230720
521 | ### Title: Unified Adversarial Patch for Cross-modal Attacks in the Physical World
522 | ### Venue: ICCV 2023
523 |
524 | # 120. 20230720
525 | ### Title: CAPatch: Physical Adversarial Patch against Image Captioning Systems
526 | ### Venue: USENIX Security 2023
527 |
528 | # 121. 20230722
529 | ### Title: Diffusion to Confusion: Naturalistic Adversarial Patch Generation Based on Diffusion Model for Object Detector
530 | ### Venue: arXiv 202307
531 |
532 | # 122. 20230803
533 | ### Title: RFLA: A Stealthy Reflected Light Adversarial Attack in the Physical World
534 | ### Venue: arXiv 202307
535 |
536 | # 123. 20230803
537 | ### Title: Why Don’t You Clean Your Glasses? Perception Attacks with Dynamic Optical Perturbations
538 | ### Venue: arXiv 202307
539 |
540 | # 124. 20230811
541 | ### Title: A reading survey on adversarial machine learning: Adversarial attacks and their understanding
542 | ### Venue: arXiv 202308
543 |
544 | # 125. 20230818
545 | ### Title: AdvCLIP: Downstream-agnostic Adversarial Examples in Multimodal Contrastive Learning
546 | ### Venue: ACM MM 2023
547 |
548 | # 126. 20230818
549 | ### Title: ACTIVE: Towards Highly Transferable 3D Physical Camouflage for Universal and Robust Vehicle Evasion
550 | ### Venue: arXiv 202308
551 |
552 | # 127. 20230826
553 | ### Title: Does Physical Adversarial Example Really Matter to Autonomous Driving? Towards System-Level Effect of Adversarial Object Evasion Attack
554 | ### Venue: ICCV 2023
555 |
556 | # 128. 20230901
557 | ### Title: REAP: A Large-Scale Realistic Adversarial Patch Benchmark
558 | ### Venue: ICCV 2023
559 | 本文的motivation是:当前的adversarial patch attack的评估太难了,主要原因是如果在real world采集数据集进行评估,太expensive,如果在digital domain做simulation,许多physical world的因素get不到,因此作者提出了一个benchmark dataset来评估patch-based attack方法。本文工作针对的是traffic sign detection任务,提出了一个patch rendering的方法,主要包括Geometric Transformation和Relighting Transformation。通过在benchmark dataset上评估RP2 attack和DPatch attack,作者得出结论:当前的攻击方法有效性是不如预期的;在合成的数据集上作评估不能反映real world的情况;光照和patch的位置对攻击效果影响最大。
560 | # 129. 20230904
561 | ### Title: Transferable Black-Box Attack against Face Recognition with Spatial Mutable Adversarial Patch
562 | ### Venue: TIFS 2023
563 |
564 | # 130. 20230904
565 | ### Title: Adversarial Attacks on Foundational Vision Models
566 | ### Venue: arXiv 202309
567 |
568 | # 131. 20230904
569 | ### Title: IMPERCEPTIBLE ADVERSARIAL ATTACK ON DEEP NEURAL NETWORKS FROM IMAGE BOUNDARY
570 | ### Venue: arXiv 202309
571 |
572 | # 132. 20230911
573 | ### Title: Adv3D: Generating 3D Adversarial Examples in Driving Scenarios with NeRF
574 | ### Venue: arXiv 202309
575 |
576 | # 133. 20230921
577 | ### Title: Are Vision Transformers Robust to Patch Perturbations?
578 | ### Venue: ECCV 2022
579 |
580 | # 134. 20230925
581 | ### Title: PRAT: PRofiling Adversarial aTtacks
582 | ### Venue: arXiv 202309
583 |
584 | # 135. 20231008
585 | ### Title: F&F Attack: Adversarial Attack against Multiple Object Trackers by Inducing False Negatives and False Positives
586 | ### Venue: ICCV 2023
587 |
588 | # 136. 20231008
589 | ### Title: Adversarial Examples with Specular Highlights
590 | ### Venue: ICCV 2023
591 |
592 |
593 | # 137. 20231008
594 | ### Title: Targeted Adversarial Attacks on Generalizable Neural Radiance Fields
595 | ### Venue: ICCV 2023
596 |
597 |
598 | # 138. 20231008
599 | ### Title: Benchmarking Image Classifiers for Physical Out-of-Distribution Examples Detection
600 | ### Venue: ICCV 2023 workshops
601 |
602 | # 139. 20231017
603 | ### Title: Transferable Black-Box Attack Against Face Recognition With Spatial Mutable Adversarial Patch
604 | ### Venue: TIFS 2023
605 |
606 | # 140. 20231023
607 | ### Title: On Adversarial Robustness of Trajectory Prediction for Autonomous Vehicles
608 | ### Venue: CVPR 2022
609 |
610 | # 141. 20231023
611 | ### Title: AdvDO: Realistic Adversarial Attacks for Trajectory Prediction
612 | ### Venue: ECCV 2022
613 |
614 | # 142. 20231024
615 | ### Title: Downstream-agnostic Adversarial Examples
616 | ### Venue: ICCV 2023
617 |
618 | # 143. 20231026
619 | ### Title: AdvDiffuser: Natural Adversarial Example Synthesis with Diffusion Models
620 | ### Venue: ICCV 2023
621 |
622 | # 144. 20231101
623 | ### Title: Adversarial Attack for Robust Watermark Protection Against Inpainting-based and Blind Watermark Removers
624 | ### Venue: ACM MM 2023
625 |
626 | # 145. 20231101
627 | ### Title: Uncertainty-weighted Loss Functions for Improved Adversarial Attacks on Semantic Segmentation
628 | ### Venue: arXiv 202310
629 |
630 | # 146. 20231101
631 | ### Title: Detection Defenses: An Empty Promise against Adversarial Patch Attacks on Optical Flow
632 | ### Venue: arXiv 202310
633 |
634 | # 147. 20231124
635 | ### Title: AdvGen: Physical Adversarial Attack on Face Presentation Attack Detection Systems
636 | ### Venue: arXiv 202311
637 |
638 | # 148. 20231201
639 | ### Title: Adversarial Doodles: Interpretable and Human-drawable Attacks Provide Describable Insights
640 | ### Venue: arXiv 202311
641 |
642 | # 149. 20231201
643 | ### Title: Instruct2Attack: Language-Guided Semantic Adversarial Attacks
644 | ### Venue: arXiv 202311
645 |
646 | # 150. 20231213
647 | ### Title: A Comprehensive Study of the Robustness for LiDAR-Based 3D Object Detectors Against Adversarial Attacks
648 | ### Venue: IJCV 2023
649 |
650 | # 151. 20231213
651 | ### Title: TextCheater: A Query-Efficient Textual Adversarial Attack in the Hard-Label Setting
652 | ### Venue: IEEE Transactions on Dependable and Secure Computing 2023
653 |
654 | # 152. 20231225
655 | ### Title: Mutual-modality Adversarial Attack with Semantic Perturbation
656 | ### Venue: AAAI 2024
657 |
658 | # 153. 20231226
659 | ### Title: AdvART: Adversarial Art for Camouflaged Object Detection Attacks
660 | ### Venue: arXiv 202303
661 |
662 | # 154. 20240101
663 | ### Title: Infrared Adversarial Patches with Learnable Shapes and Locations in the Physical World
664 | ### Venue: IJCV 202312
665 | 本文利用一种隔热材料(thermal insulation materials)构造adversarial patch,修改目标表面的热量分布,实现对热红外模态下person detector的物理对抗攻击。为了提供攻击性,作者提出一种聚合正则化(aggregation regularization),引导同时优化patch的形状和位置。实验显示可以实现90%以上的ASR。通过优化,作者得到一种形状不规则的adversarial patch,然后用气凝胶材料在real world实现。作者声称这种方案相较于以前的方法,是高效的,易于实现。
666 | # 155. 20240103
667 | ### Title: Adaptive Cross-Modal Transferable Adversarial Attacks from Images to Videos
668 | ### Venue: TPAMI 202312
669 |
670 | # 156. 20240103
671 | ### Title: BlackboxBench: A Comprehensive Benchmark of Black-box Adversarial Attacks
672 | ### Venue: arXiv 202401
673 |
674 | # 157. 20240110
675 | ### Title: FastTextDodger: Decision-based Adversarial Attack against Black-box NLP Models with Extremely High Efficiency
676 | ### Venue: TIFS 202401
677 |
678 | # 158: 20240123
679 | ### Title: Hiding from infrared detectors in real world with adversarial clothes
680 | ### Venue: Applied Intelligence 2023
681 |
682 | # 159: 20240301
683 | ### Title: Towards Effective Adversarial Textured 3D Meshes on Physical Face Recognition
684 | ### Venue: CVPR 2023
685 | 本文提出用3D的面罩攻击人脸识别模型。效果很惊艳:成果地攻击了3个识别的APIs,4个反欺骗APIs,2个手机和2个自动权限管理系统。作者提出现有的攻击方法要么易于检测,要么不够有效,因此他们提出AT3D,用3D打印制作一个面罩,同时进行攻击和逃避反欺骗技术。由于直接在mesh空间进行优化容易陷入局部最优值,作者提出在low-dimensional系数空间进行优化,降低了优化复杂度,提升了效率,并且具有很好的black-box迁移性。
686 |
687 | # 160. 20240303
688 | ### Title: DAP: A Dynamic Adversarial Patch for Evading Person Detectors
689 | ### Venue: arXiv 202311
690 |
691 | # 161. 20240303
692 | ### Title: Seeing isn’t Believing: Towards More Robust Adversarial Attack Against Real World Object Detectors
693 | ### Venue: CCS 2019
694 |
695 | # 162. 20240305
696 | ### Title: Vulnerabilities in Video Quality Assessment Models: The Challenge of Adversarial Attacks
697 | ### Venue: NIPS 2023
698 |
699 | # 163. 20240305
700 | ### Title: UniT: A Unified Look at Certified Robust Training against Text Adversarial Perturbation
701 | ### Venue: NIPS 2023
702 |
703 | # 164. 20240305
704 | ### Title: Content-based Unrestricted Adversarial Attack
705 | ### Venue: NIPS 2023
706 |
707 | # 165. 20240305
708 | ### Title: On Evaluating Adversarial Robustness of Large Vision-Language Models
709 | ### Venue: NIPS 2023
710 |
711 | # 166. 20240305
712 | ### Title: CamoPatch: An Evolutionary Strategy for Generating Camoflauged Adversarial Patches
713 | ### Venue: NIPS 2023
714 |
715 | # 167. 20240305
716 | ### Title: Adversarial Attacks on Online Learning to Rank with Click Feedback
717 | ### Venue: NIPS 2023
718 |
719 | # 168. 20240305
720 | ### Title: Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability
721 | ### Venue: NIPS 2023
722 |
723 | # 169. 20240305
724 | ### Title: Adversarial Examples Are Not Real Features
725 | ### Venue: NIPS 2023
726 |
727 | # 170. 20240305
728 | ### Title: VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models
729 | ### Venue: NIPS 2023
730 |
731 | # 171. 20240305
732 | ### Title: Blurred-Dilated Method for Adversarial Attacks
733 | ### Venue: NIPS 2023
734 |
735 | # 172. 20240305
736 | ### Title: Efficient Adversarial Attacks on Online Multi-agent Reinforcement Learning
737 | ### Venue: NIPS 2023
738 |
739 | # 173. 20240305
740 | ### Title: HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text
741 | ### Venue: NIPS 2023
742 |
743 | # 174. 20240305
744 | ### Title: Adversarial Examples Might be Avoidable: The Role of Data Concentration in Adversarial Robustness
745 | ### Venue: NIPS 2023
746 | 现代的机器学习分类器容易受到Adversarial Examples的影响,这一现象启发了理论的研究,表明这种现象是不可避免的。然而,作者声称这些结果可能过于笼统,不适用于自然数据分布。事实上,人类在完成涉及视觉的任务时非常鲁棒。这种明显的冲突促使作者对这个问题进行更深入的探究: Adversarial Examples真的不可避免吗?他们从理论上证明,数据分布的一个关键属性--集中于输入空间的小容量子集--决定了鲁棒分类器是否存在。
747 |
748 | # 175. 20240319
749 | ### Title: Universal and Transferable Adversarial Attacks on Aligned Language Models
750 | ### Venue: arXiv 202312
751 | 作者提出了一种针对对齐语言模型的Universal and Transferable对抗性攻击。具体来说,他们在查询中添加了对抗后缀,促使模型生成有害内容。实验证明,这种攻击可以诱导对齐语言模型生成几乎任何攻击性内容。
752 |
753 | # 176. 20240323
754 | ### Title: As Firm As Their Foundations Can Open-Sourced Foundation Models be Used to Create Adversarial Examples for Downstream Tasks?
755 | ### Venue: arXiv 202403
756 |
757 | # 177. 20240711
758 | ### Title: MMA-Diffusion: MultiModal Attack on Diffusion Models
759 | ### Venue: CVPR 2024
760 |
761 | # 178. 20240711
762 | ### Title: Jailbroken: How Does LLM Safety Training Fail?
763 | ### Venue: NIPS 2023
764 | 针对安全性和无害性进行训练的大型语言模型仍然容易受到对抗性滥用的影响,这一点从早期版本的ChatGPT中普遍存在的“越狱”攻击中可以看出,这些攻击引发了不期望的行为。本文不仅认识到了这个问题,还研究了为什么这些攻击会成功以及如何创建它们。作者假设安全训练有两种失败模式:竞争目标和不匹配的泛化。当模型的能力和安全目标发生冲突时,就会出现竞争目标;而当安全训练未能泛化到模型能力存在的领域时,就会出现不匹配的泛化。作者使用这些失败模式来指导越狱设计,然后评估包括OpenAI的GPT-4和Anthropic的Claude v1.3在内的最新技术模型,对抗现有的和新设计的攻击。作者发现,尽管这些模型背后有广泛的红队测试和安全训练努力,但漏洞仍然存在。值得注意的是,利用作者的失败模式设计的新攻击在模型的红队测试评估集中的一系列不安全请求的每个提示上都取得了成功,并且表现优于现有的即兴越狱。作者的分析强调了安全性能力对等的必要性——安全机制应该和底层模型一样复杂——并反对仅仅通过扩展就能解决这些安全失败模式的观点。
765 |
--------------------------------------------------------------------------------
/Paper_Reading/adversarial defense.md:
--------------------------------------------------------------------------------
1 | # 1. 20220528
2 | ### Title: Diffusion Models for Adversarial Purification
3 | ### Venue: PMLR 2022
4 | 本文用diffusion model做对抗防御,效果非常好。训练时方法的输入是Adversarial image,经过diffusion model,输出Purified image,然后将其输入一个classifier中,使其分类正确。这是首次利用diffusion model来做Adversarial Purification。
5 | # 2. 20220725
6 | ### Title: Threat Model-Agnostic Adversarial Defense using Diffusion Models
7 | ### Venue: Arxiv 202207
8 | 本文是adversarial defense和diffusion model的结合,作者利用热门的diffusion model,提出了一种preprocessing defense mechanism来防御攻击。该方法首先用threat model在image上添加扰动,得到adversarial example,然后在其上添加高斯noise,再把它输入到一个diffusion model的reverse diffusion process,由于该步骤本身就是remove noise的过程,因此可以把adversarial perturbation也remove掉。
9 | # 3. 20221012
10 | ### Title: Adversarial Attack on Attackers: Post-Process to Mitigate Black-Box Score-Based Query Attacks
11 | ### Venue: NeurIPS 2022
12 | 上海交通大学自动化系图像处理与模式识别研究所黄晓霖副教授团队。本文关注真实场景的防御,提出主动对攻击者实施攻击,在保证用户正常使用模型(无精度/速度损失)的同时,有效阻止黑盒攻击者通过查询模型输出生成对抗样本。本文考虑通过后处理来防御,其自带以下优点:有效防御基于查询分数的攻击;不影响模型精度,甚至还能使模型的置信度更加准确;是一种轻量化,即插即用的方法。核心思路是,测试阶段主动误导攻击者进入错误的攻击方向,也就是对攻击者发动攻击(adversarial attack on attackers, AAA)
13 | # 4. 20221013
14 | ### Title: Symmetry Subgroup Defense Against Adversarial Attacks
15 | ### Venue: Arxiv 202210
16 | 本文是一篇关于adversarial defense的工作。作者强调当前CNN分类网络缺乏不变性,例如对一张图片进行对称的transformation,分类网络就会把这张图片分类错误。利用CNN的这一内在特性,作者提出Symmetry Subgroup Defense,即将adversarial example进行symmetrically transformation,以使其失去攻击力,使分类器重新将其分类为正确标签。本文写作方式很特别,用了大量的符号定义。
17 | # 5. 20221015
18 | ### Title: Defending Against Adversarial Attacks via Neural Dynamic System
19 | ### Venue: NIPS 2022
20 | DNN容易被攻击的性质阻碍了其在安全关键领域的应用。为了解决这个问题,最近的一些研究提出从动力系统的角度来增强DNN的鲁棒性。根据这一思路,本文受到非自治动力系统的渐近稳定性的启发,将每个自然样本都变成缓慢时变动力系统的渐近稳定平衡点,以防御对抗攻击。本文根据动力系统平衡点理论提出: 如果一个自然样本是一个渐近稳定的平衡点,而对抗样本在这个平衡点附近,那么渐近稳定性可以降低对抗噪声,使对抗样本接近自然样本。在这个理论结果的基础上,本文发明了一种基于非自治神经常微分方程的算法(ASODE),并对其相应的线性系统施加约束,使所有自然样本成为动力系统的渐近稳定平衡点。通过分析,这些约束可以通过转换为损失函数中的正则化项来实现。实验结果表明,ASODE提高了DNN的鲁棒性,并且优于现有的方法。
21 | # 6. 20221018
22 | ### Title: Segment and Complete: Defending Object Detectors against Adversarial Patch Attacks with Robust Patch Detection
23 | ### Venue: CVPR 2022
24 | 1. Why? 目标检测器受到adversarial patch的严重威胁。
25 | 2. What? 本文提出Segment and Complete (SAC)方法来防御adversarial patch的攻击,经过实验验证了SAC的有效性和鲁棒性,并且提出了一个数据集APRICOT-Mask,该数据集提供了对adversarial patch像素级的标注。
26 | 3. How? 首先利用model分割adversarial patch,然后将patch去除,然后进行检测。
27 | 4. How much? 攻击成功率从7.97%下降到了2.17%。
28 | 5. What then? 把patch去除升级为对相应区域进行inpaint。
29 | # 7. 20221028
30 | ### Title: Efficient and Effective Augmentation Strategy for Adversarial Training
31 | ### Venue: NIPS 2022
32 | 1. Why? Adversarial training是data-hungry的,而且Adversarial training无法像数据增广方法一样为模型(image classifier)提供很大的性能提升。
33 | 2. What? 本文首先分析了Adversarial training中strong data augmentations失败的原因,基于此提出了Diverse Augmentation based Joint Adversarial Training来进行更有效的Adversarial training。然后将DAJAT整合进入了两阶段的训练策略中,提出Ascending Constraint Adversarial Training (ACAT) 。通过实验验证了所提方法的性能。
34 | 3. How? 作者把训练阶段的数据增广看作一个domain generalization问题,分析了数据增广的影响和扮演的角色。
35 | 4. How much? 在ResNet-18 and WideResNet-34-10模型上,本文提出的方法在防御方面取得SOTA。
36 | 5. What then? 本文只关注effective,没有关注which augmentations are best suited for the same.
37 | # 8. 20221103
38 | ### Title: The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for Improving Adversarial Training
39 | ### Venue: Arxiv 202211
40 | 1. Why? 当前的adversarial training方法关注legitimate examples和adversarial examples之间的 distribution alignment,但这种凡事存在 feature representation gap,引入undesirable decision boundary。
41 | 2. What? 基于 inverse version of adversarial examples,提出了一个novel adversarial training framework;而且,作者设计了一个class-specific universal inverse adversary generation strategy。
42 | 3. How? 提出inverse adversarial example,引入class-specific variant,设计 Universal Inverse Adversarial Training.
43 | 4. How much? 本文做了详尽的实验并分析了结果。
44 | 5. What then? 无。
45 | # 8. 20221108
46 | ### Title: Scaling Adversarial Training to Large Perturbation Bounds
47 | ### Venue: NIPS 2022
48 | 1. Why? 当前的adversarial training方法设计面向的是perturbation within low magnitude Lp norm bounds,然而现实世界中的攻击者不会这样,存在用larger bounds的情况。
49 | 2. What? 针对larger bounds会引起Oracle预测的label改变的问题(这与任务是想矛盾的),本文提出Oracle-Aligned Adversarial Training (OA-AT),to improve robustness at larger epsilon bounds。
50 | 3. How? 本文提到一些Notation和Nomenclature,写作上可以效仿。本文主要关注larger perturbation bounds下的robustness。
51 | 4. How much? 首先取得SOTA在larger perturbation bounds下,其次在standard bounds下,也超过一些现有的方法。
52 | 5. What then? 未来的工作基于这种设计,以更好地防御并且获得对adversarial example更好的理解
53 | # 8. 20221208
54 | ### Title: Effective Backdoor Defense by Exploiting Sensitivity of Poisoned Samples
55 | ### Venue: NIPS 2022(Spotlight)
56 | 基于投毒的后门攻击对由不可信来源数据所训练的模型构成了严重威胁。给定一个后门模型,作者观察到,相较于干净样本,毒性样本的特征表示对数据变换更加敏感。这启发作者设计了一个简单的敏感性度量——“针对数据变换的特征一致性(FCT)”,并基于FCT设计了一个样本区分模块,用以区分不可信训练集中的毒性样本和干净样本。此外,基于上述模块,作者提出了两种有效的后门防御方法,分别适用于不同的防御场景。第一种方法用于从头训练出一个安全模型(in-training defense),涉及一个两阶段的安全训练模块。第二种方法用于移除后门模型中的后门(post-training defense),包含一个交替遗忘毒性样本和重新学习干净样本的后门移除模块。在3个基准数据集和8种后门攻击上的实验结果表明了本文方法相较于SOTA防御方法的优越性能。
57 | # 9. 20230203
58 | ### Title: Defending from Physically-Realizable Adversarial Attacks through Internal Over-Activation Analysis
59 | ### Venue: AAAI 2023
60 |
61 | # 10. 20230323
62 | ### Title: DEFENDING AGAINST PHYSICALLY REALIZABLE ATTACKS ON IMAGE CLASSIFICATION
63 | ### Venue: ICLR 2020
64 |
65 | # 11. 20230329
66 | ### Title: Defending Against Adversarial Attacks via Neural Dynamic System
67 | ### Venue: NIPS 2022
68 |
69 | # 12. 20230329
70 | ### Title: Toward Robust Spiking Neural Network Against Adversarial Perturbation
71 | ### Venue: NIPS 2022
72 |
73 | # 13. 20230329
74 | ### Title: Are AlphaZero-like Agents Robust to Adversarial Perturbations?
75 | ### Venue: NIPS 2022
76 |
77 | # 14. 20230329
78 | ### Title: Friendly Noise against Adversarial Noise: A Powerful Defense against Data Poisoning Attack
79 | ### Venue: NIPS 2022
80 |
81 | # 15. 20230329
82 | ### Title: DISCO: Adversarial Defense with Local Implicit Functions
83 | ### Venue: NIPS 2022
84 |
85 | # 16. 20240428
86 | ### Title: Towards Unified Robustness Against Both Backdoor and Adversarial Attacks
87 | ### Venue: TPAMI 2024
88 |
89 |
90 |
91 |
92 |
93 |
94 |
95 |
96 |
97 |
98 |
99 |
100 |
101 |
102 |
103 |
104 |
105 |
106 |
107 |
108 |
109 |
110 |
111 |
112 |
113 |
114 |
115 |
116 |
117 |
118 |
119 |
120 |
121 |
122 |
123 |
124 |
125 |
126 |
127 |
128 |
129 |
130 |
131 |
132 |
133 |
134 |
135 |
136 |
137 |
138 |
139 |
140 |
141 |
142 |
143 |
144 |
145 |
146 |
147 |
148 |
149 |
150 |
--------------------------------------------------------------------------------
/Paper_Reading/backdoor attack.md:
--------------------------------------------------------------------------------
1 | # 1. 20220630
2 | ### Title: Dual-Key Multimodal Backdoors for Visual Question Answering
3 | ### Venue: CVPR 2022
4 | 本文首次提出对多模态任务的后门攻击,攻击任务是VQA model。攻击方法用两个trigger,一个是question trigger, 一个是visual trigger。只有当两个trigger都出现时,才会触发攻击,单独出现一个不会触发。本文提出了一个实验证明:越复杂的模型,面对后门攻击越脆弱。
5 | # 2. 20221001
6 | ### Title: Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection
7 | ### Venue: NIPS 2022
8 | 本文探索了如何保护(开源)数据集的版权。作者发现,现有的数据集所有权验证可能会带来新的严重风险,这是由于现有数据集水印所用的后门攻击。基于这一观察,作者探索了有毒标签和干净标签设置下的非目标后门水印(UBW)范例,其异常模型行为并非确定性的。作者还研究了如何利用UBW进行无害和隐蔽的数据集所有权验证。在基准数据集上的实验验证了有效性及其对后门防御的抵御能力。
9 | # 3. 20221018
10 | ### Title: Marksman Backdoor: Backdoor Attacks with Arbitrary Target Class
11 | ### Venue: NIPS 2022
12 |
13 |
14 | # 4. 20230327
15 | ### Title: Influencer Backdoor Attack on Semantic Segmentation
16 | ### Venue: ArXiv 202303
17 | 本文研究了语义分割任务上的后门攻击,是首次这样做的工作。作者展示了,当图像中加入trigger后,语义分割模型就无法正确识别到车辆,而其它类别的分割结果还在正常的。
18 | # 6. 20230329
19 | ### Title: Blind Backdoors in Deep Learning Models
20 | ### Venue: USENIX Security 2021
21 | 本文提出一种blind backdoor,不修改input,也不需要对model进行query。这种backdoor attacks通过code poisoning来实现。该方法通过向code注入攻击的代码,在不影响model性能的同时,可以操控model进行特殊的预测,例如使model从计算照片中的人脸数量变为隐蔽地识别特定的个人。代码开源。
22 | # 7. 20230329
23 | ### Title: Randomized Channel Shuffling: Minimal-Overhead Backdoor Attack Detection without Clean Datasets
24 | ### Venue: NIPS 2022
25 |
26 | # 8. 20230329
27 | ### Title: BadPrompt: Backdoor Attacks on Continuous Prompts
28 | ### Venue: NIPS 2022
29 |
30 | # 9. 20230329
31 | ### Title: Finding Naturally Occurring Physical Backdoors in Image Datasets
32 | ### Venue: NIPS 2022
33 |
34 |
35 | # 10. 20231023
36 | ### Title: MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary Backdoor Pattern Types Using a Maximum Margin Statistic
37 | ### Venue: 2024 IEEE SP
38 |
39 | # 11. 20231207
40 | ### Title: Synthesizing Physical Backdoor Datasets: An Automated Framework Leveraging Deep Generative Models
41 | ### Venue: ArXiv 202312
42 |
43 |
44 | # 12. 20240318
45 | ### Title: Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks
46 | ### Venue: CVPR 2022
47 | 作者提出,AI security社区的主要目标是构建安全可靠的AI应用,因此基于数据下毒的后门攻击以及相应的防御手段吸引力大量的关注。然而讽刺的是,相比production stage或者训练阶段的攻击,backdoor attacks in the deployment stage,这种更具威胁的攻击,却很少有相关的研究。基于此,作者提出subnet replacement attack (SRA),首个gray-box and physically realizable的后门攻击。该攻击通过在物理场景中放置一个触发器,可以是一个patch,就可以控制后门模型进行错误的预测。
48 |
49 |
50 |
51 |
52 |
53 |
54 |
55 |
56 |
57 |
58 |
59 |
60 |
61 |
62 |
63 |
64 |
65 |
66 |
67 |
68 |
69 |
70 |
71 |
--------------------------------------------------------------------------------
/Paper_Reading/best_paper.md:
--------------------------------------------------------------------------------
1 | # 2022
2 | ## 1. ACM MM
3 | ## Title: Search-oriented Micro-video Captioning
4 | 1. Why? 以往工作致力于以内容为导向的视频字幕工作,从创作者的角度生成相关的句子来描述给定视频的视觉内容。这项工作的目标则是以搜索为导向,通过用户的角度生成关键词来总结给定的视频。除了相关性,多样性对于从不同角度描述用户的搜索意向也至关重要。
5 | 2. What? 这篇论文主要研究如何为“没有视频描述的短视频”自动生成一个文本描述的问题。为了给38%没有文字描述的短视频自动生成有一个抽象的文本描述,研究者通过建立相关模型,从针对用户搜索需求的角度自动生成文本去描述一个短视频,以满足用户搜索视频的多样化需求。
6 | 3. How? 本文设计了一个大规模多模态的预训练网络,通过五个任务来加强下游视频表征,该网络在研究团队收集的 1100 万个微视频上训练。之后,研究团队提出了一种基于流的多样化字幕模型,以根据用户的搜索需求生成不同的字幕。
7 | 4. How much? 该模型通过重建损失在先验和后验之间的KL分歧进行优化。通过构建由 69 万个<查询,短视频>对组成的黄金数据集合,作者验证了他们的模型,实验结果也证明了其优越性。据了解,这项工作所研发的“短视频摘要生成算法”在快手得到落地,已平稳运行半年,每日处理约 3 千万个短视频。
8 | 5. What then? 可扩展性、灵活性和实用性。
9 | ## 2. CVPR
10 | ## Title: Learning to Solve Hard Minimal Problems
11 | 该研究提出了一种在 RANSAC 框架中解决困难的几何优化问题的方法。最小化问题源于将原始几何优化问题松弛化(relax)为具有许多虚假解决方案的最小问题。该研究提出的方法避免了计算大量虚假解决方案。研究者设计了一种学习策略,用于选择初始问题 - 解决方案对以用数值方法继续解决原问题。该研究通过创建一个 RANSAC 求解器来演示所提方法,该求解器通过使用每个视图中的 4 个点进行最小松弛化来计算 3 个校准相机的相对位姿。平均而言,该方法可以在 70 μs 内解决一个原始问题。此外,该研究还针对校准相机的相对位姿这一问题进行了基准测试和研究。
12 | ## 3. ECCV
13 | ## Title: On the Versatile Uses of Partial Distance Correlation in Deep Learning
14 | 代码开源。比较神经网络模型的功能行为,无论是在训练期间的单个网络,还是训练一段时间后的两个网络(或更多网络),这些是了解模型正在学习什么(以及它们没有学习什么)的重要步骤,同时也是确定规范化或提高效率的重要策略。
15 | 最近的研究已经取得了一些进展,例如研究者将视觉 transformers 与 CNN 进行比较,但系统地比较功能,特别是在不同的网络之间,仍然存在很多困难,通常的做法是一层一层地进行比较。
16 | CCA(canonical correlation analysis)等方法在原则上适用,但迄今为止用的人很少。本文回顾了统计学中一个鲜为人知的概念,称为距离相关(及其部分变体),它被设计用来评估不同维度特征空间之间的相关性。该研究描述了将其部署到大规模模型的必要步骤,这为一系列应用打开了大门,包括调节一个深度模型,学习解耦表示,以及优化不同的模型,这些模型在应对对抗攻击时,鲁棒性更好。
17 | ## 4. SIGGRAPH
18 | ## Title: CLIPasso: Semantically-Aware Object Sketching
19 | 本文提出了一个Sketching方法,CLIPasso。该方法可以将一张图片抽象为一幅简笔画,并且可以控制抽象的程度(通过控制笔画数实现)和抽象的风格(通过控制曲线的degree实现)。CLIPasso利用了CLIP模型的语义建模能力(它对visual feature和visual depiction feature进行encoder),在高维空间学习抽象的语义特征。CLIP模型非常擅长做sketching这个工作。CLIPaaso的效果非常惊艳,作者进行了定性和定量实验。文章写作非常具体,代码开源。文中用了许多trick,可以follow。此外,将该任务建模为Bezier Curve也非常巧妙。
--------------------------------------------------------------------------------
/Paper_Reading/best_paper_of_CVPR.md:
--------------------------------------------------------------------------------
1 | # 2024(两篇)
2 | ### Generative Image Dynamics
3 |
4 | ### Rich Human Feedback for Text-to-Image Generation
5 |
6 | # 2023(两篇)
7 | ### Visual Programming: Compositional visual reasoning without training
8 |
9 | ### Planning-oriented Autonomous Driving
10 |
11 |
12 | # 2022(一篇)
13 | ### Learning to Solve Hard Minimal Problems
14 | 该研究提出了一种在 RANSAC 框架中解决困难的几何优化问题的方法。最小化问题源于将原始几何优化问题松弛化(relax)为具有许多虚假解决方案的最小问题。该研究提出的方法避免了计算大量虚假解决方案。研究者设计了一种学习策略,用于选择初始问题 - 解决方案对以用数值方法继续解决原问题。该研究通过创建一个 RANSAC 求解器来演示所提方法,该求解器通过使用每个视图中的 4 个点进行最小松弛化来计算 3 个校准相机的相对位姿。平均而言,该方法可以在 70 μs 内解决一个原始问题。此外,该研究还针对校准相机的相对位姿这一问题进行了基准测试和研究。
15 | # 2021(一篇)
16 | ### GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields
17 | 深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说,这还不够:内容创作还需要可控。虽然最近有几项工作研究了如何分解数据中的潜在变化因素,但它们大多在二维中操作,忽略了我们的世界是三维的。此外,只有少数作品考虑到了场景的组成性质。我们的关键假设是,将组合式三维场景表示纳入生成模型,可以使图像合成更加可控。将场景表示为生成性神经特征场,使我们能够从背景中分离出一个或多个物体,以及单个物体的形状和外观,同时无需任何额外的监督就能从非结构化和unposed的图像集中学习。将这种场景表示与神经渲染管道结合起来,可以产生一个快速而真实的图像合成模型。正如我们的实验所证明的那样,我们的模型能够分解单个物体,并允许在场景中平移和旋转它们,还可以改变摄像机的姿势。
18 | # 2020(一篇)
19 | ### Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild
20 | 本文提出了一种无需外部监督即可从原始单视图图像中学习3D变形对象的方法。该方法基于自动编码器,该自动编码器将每个输入图像分解为深度,反射率,视角和照明。为了在无监督的情况下解构这些组件,作者使用了以下事实:许多对象类别至少在原则上具有对称结构。
21 |
22 | 作者通过光照的推理来利用底层对象的对称性,即使外观由于阴影而不对称。接着通过预测对称概率图来建模可能(但不一定)对称的对象,并与模型的其他组件联合起来进行端到端的学习。实验表明该方法可以从单视图图像中非常准确地恢复人脸,猫脸和汽车的3D形状,而无需任何监督或预先设定的形状模型。
23 | # 2019(一篇)
24 | ### A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
25 | 核心内容:我们提出了一个新的理论,即在一个已知的可见场景和一个不在瞬态相机视线范围内的未知物体之间的费马路径(fermat path)。这些光路或者遵守镜面反射,或者被物体的边界反射,从而编码隐藏物体的形状。 我们证明费马路径对应于瞬态测量中的不连续性。基于此,我们推导出一种新的约束,它将这些不连续处的路径长度的空间导数与表面法线相关联。 基于这一理论,我们提出了一种名为Fermat Flow的算法来估计非视距物体的形状。我们的方法第一次实现复杂对象的精确形状恢复,范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。 最后,我们的方法与用于瞬态成像的特定技术无关。因此,我们展示了使用SPAD和超快激光从皮秒级瞬态恢复的毫米级形状,以及使用干涉测量法从飞秒级瞬态微米级重建。我们相信,这项工作是非视距成像技术的重大进步。
26 |
27 | 获奖理由:这篇论文作出重大进步的问题是非视线内的物体形状重建,换句话说就是能看到墙角后面的东西。这篇论文的理论部分非常优美,而且同样非常给人带来激励。它把计算机视觉所能解决的问题的边界继续向前推进了一步。
28 | # 2018(一篇)
29 | ### Taskonomy: Disentangling Task Transfer Learning
30 | 论文研究了一个非常新颖的课题,那就是研究视觉任务之间的关系,根据得出的关系可以帮助在不同任务之间做迁移学习。该论文提出了「Taskonomy」——一种完全计算化的方法,可以量化计算大量任务之间的关系,从它们之间提出统一的结构,并把它作为迁移学习的模型。实验设置上,作者首先找来一组一共 26 个任务,当中包括了语义、 2D、2.5D、3D 任务,接着为任务列表里的这 26 个任务分别训练了 26 个任务专用神经网络。结果显示,这些迁移后的模型的表现已经和作为黄金标准的任务专用网络的表现差不多好。论文提供了一套计算和探测相关分类结构的工具,其中包括一个求解器,用户可以用它来为其用例设计有效的监督策略。
31 | # 2017(两篇)
32 | ### Densely Connected Convolutional Networks
33 | 近期的研究已经展现这样一种趋势,如果卷积网络中离输入更近或者离输出更近的层之间的连接更短,网络就基本上可以更深、更准确,训练时也更高效。这篇论文就对这种趋势进行了深入的研究,并提出了密集卷积网络(DenseNet),其中的每一层都和它之后的每一层做前馈连接。对于以往的卷积神经网络,网络中的每一层都和其后的层连接,L 层的网络中就具有 L 个连接;而在 DenseNet 中,直接连接的总数则是 L(L+1)/2 个。对每一层来说,它之前的所有的层的 feature-map 都作为了它的输入,然后它自己的 feature-map 则会作为所有它之后的层的输入。
34 | ### Learning from Simulated and Unsupervised Images through Adversarial Training
35 | 随着图像领域的进步,用生成的图像训练机器学习模型的可行性越来越高,大有避免人工标注真实图像的潜力。但是,由于生成的图像和真实图像的分布有所区别,用生成的图像训练的模型可能没有用真实图像训练的表现那么好。为了缩小这种差距,论文中提出了一种模拟+无监督的学习方式,其中的任务就是学习到一个模型,它能够用无标注的真实数据提高模拟器生成的图片的真实性,同时还能够保留模拟器生成的图片的标注信息。论文中构建了一个类似于 GANs 的对抗性网络来进行这种模拟+无监督学习,只不过论文中网络的输入是图像而不是随机向量。为了保留标注信息、避免图像瑕疵、稳定训练过程,论文中对标准 GAN 算法进行了几个关键的修改,分别对应「自我正则化」项、局部对抗性失真损失、用过往的美化后图像更新鉴别器。
36 |
37 | 这是奉行保密文化的苹果公司所发布的第一篇 AI 论文,标志着苹果公开 AI 学术研究成果、对外敞开大门的第一步。该论文发表于去年 12 月,提出了由三部分(模拟器 Simulator,精制器 Refiner,再加上一个判别器 Discriminator)组成的 SimGAN 训练方法。 有意思的是,当初就有学者对这篇论文的含金量提出质疑,认为苹果这份论文“试水”的意义远大于研究本身的意义。
38 | # 2016(一篇)
39 | ### Deep Residual Learning for Image Recognition
40 | 在现有基础下,想要进一步训练更深层次的神经网络是非常困难的。我们提出了一种减轻网络训练负担的残差学习框架,这种网络比以前使用过的网络本质上层次更深。我们明确地将这层作为输入层相关的学习残差函数,而不是学习未知的函数。同时,我们提供了全面实验数据,这些数据证明残差网络更容易优化,并且可以从深度增加中大大提高精度。我们在 ImageNet 数据集用 152 层--比 VGG 网络深 8 倍的深度来评估残差网络,但它仍具有较低的复杂度。在 ImageNet 测试集中,这些残差网络整体达到了 3.57% 的误差。该结果在 2015 年大规模视觉识别挑战赛分类任务中赢得了第一。此外,我们还用了 100 到 1000 层深度分析了的 CIFAR-10。 对于大部分视觉识别任务,深度表示是非常重要的。仅由于极深的表示,在 COCO 对象检查数据时,我们就得到了近 28% 相关的改进。深度剩余网络是我们提交给 ILSVRC 和 COCO2015 竞赛的基础,而且在 ImageNet 检测任务,ImageNet 定位,COCO 检测和 COCO 分割等领域赢我们获得了第一。
41 | # 2015(一篇)
42 | ### DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time
43 | 作者提出第一个结合商用传感器对 RGBD 扫描结果进行捕获,该结果可实时重建非刚性变形场景的密集 SLAM 系统。被称作 DynamicFusion 的这种方法在重建场景几何的当儿,还能同时估算一个密集体积的 6D 运动场景,并将估算结果变成实时框架。与 KinectFusion 一样,该系统可以生成越来越多去噪、保留细节、结合多种测量的完整重建结果,并实时显示最新的模型。由于该方法无需基于任何模板或过往的场景模型,因此适用于大部分的移动物体和场景。
44 | # 2014(一篇)
45 | ### What Camera Motion Reveals About Shape with Unknown BRDF
46 | 作者提出了一种理论,用于解决在未知远距离照明以及未知各向同性反射率下,运动物体的形状识别问题,无论是正交投影还是穿透投影。该理论对表面重建硬度增加了基本限制,与涉及的方法无关。在正交投影场景下,三个微分运动在不计 BRDF 和光照的情况下,可以产生一个将形状与图像导数联系起来的不变量。而在透视投影场景下,四个微分运动在面对未知的 BRDF 与光照情况,可以产生基于表面梯度的线性约束。此外,论文也介绍了通过不变量实现重建的拓扑类。 最后,论文推导出一种可以将形状恢复硬度与场景复杂性联系起来的通用分层。从定性角度来说,该不变量分别是用于简单照明的均匀偏微分方程,以及用于复杂照明的非均匀方程。从数量角度来说,该框架表明需要更多的最小运动次数来处理更复杂场景的形状识别问题。关于先前假设亮度恒定的工作,无论是 Lambertian BRDF 还是已知定向光源,一律被被当作是分层的特殊情况。作者利用合成与真实数据进一步说明了重建方法可以如何更好地利用这些框架。
47 | # 2013(一篇)
48 | ### Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
49 | 许多物体检测系统受到将目标图像与过滤器结合进行卷积所需时间的约束,这些过滤器从不同的角度对物件的外表(例如物体组件)进行编码。作者利用局部敏感散列这点,将卷积中的点积内核运算符替换为固定数量的散列探测器,这些探测器可以在无视滤波器组大小情况下,及时、有效地对所有滤波器响应进行采样。 为了向大家展示技术的有效性,作者将其用于评估 100,000 组可变形零件模型,模型将根据目标图像的多个维度需要运用超过一百万个滤波器,作者需在 20 秒内通过 20GB RAM 的单个多核处理器来达成评估目标。实验结果显示,与其他同样硬件配置下执行卷积的系统相比,该模型获得了大约 20,000 倍的提速 - 相等于四个量级。模型在针对 100,000 个物体类别的平均精确度达到了 0.16,主要因为在训练数据与基本实施的收集上面临挑战,最终模型在三分之一类别上实现至少 0.20 的 mAP,另外在大约 20%的类别上实现 0.30 或更高的 mAP。
50 | # 2012(一篇)
51 | ### A Simple Prior-free Method for Non-Rigid Structure-from-Motion Factorization
52 | 作者提出一种简单的「无先验」方法来解决非刚性结构的运动因子分解问题。除了基本的低秩条之外,该方法无需任何关于非刚性场景或相机运动的先验知识。即便如此,它依然得以稳定运行,并产生最佳结果,且不受许多传统非刚性分解技术的基础 - 模糊性问题(basis-ambiguity issue)困扰。 该方法易于实现,可以解决包括小型与固定大小的 SDP(半定规划)、线性最小二乘或范数最小化追踪等问题。大量实验结果表明,该方法优于现有的多数非刚性因子分解线性方法。本论文不仅提供全新的理论见解,同时提供了一种适用于非刚性结构运动分解的实用日常解决方案。
53 | # 2011(一篇)
54 | ### Real-time Human Pose Recognition in Parts from Single Depth Images
55 | 作者提出一种可以基于无时间信息从单个深度图像中快速、准确预测身体关节 3D 位置的方法。通过采用物体识别方法设计出身体部位的间接表示,进而将有难度的姿势估计问题映射为简单的每像素分类问题。作者同通过庞大、多样化的训练数据集,让分类器可以针对身体部位的姿势、身体形状、衣服等不变量进行预估,进而通过重新投影分类结果找到局部模式,最终生成具有置信度的身体关节 3D 建模。 该系统能在消费类硬件上以每秒 200 帧的速度运行。评估系统在合成与实际测试集的处理结果中显示了高精度,并分析了几个训练参数对此的影响。与相关工作相比,该模型实现了目前最先进的精度,并在全骨架最近邻匹配上有了很大进步。
56 | # 2010(一篇)
57 | ### Efficient computation of robust low-rank matrix approximations in the presence of missing data using the L1 norm
58 | 低秩近似矩阵计算是许多计算机视觉应用中的基础操作。这类问题的主力解决方案一直是奇异值分解(Singular Value Decomposition)。一旦存在数据缺失和异常值,该方法将不再适用,遗憾的是,我们经常在实践中遇到这种情况。 论文提出了一种计算矩阵的低秩分解法,一旦丢失数据时会主动最小化 L1 范数。该方法是 Wiberg 算法的代表——在 L2 规范下更具说服力的分解方法之一。通过利用线性程序的可区分性,可以对这种方法的基本思想进行扩展,进而包含 L1 问题。结果表明,现有的优化软件可以有效实现论文提出的算法。论文提供了令人信服、基于合成与现实数据的初步实验结果。
59 | # 2009(一篇)
60 | ### Single Image Haze Removal Using Dark Channel Prior
61 | 本文中提出了一个简单却有效、针对单个输入图像的暗通道去雾法。暗通道先验去雾法是一种户外去雾图像的统计方法,它主要基于一个关键的观察——室外无雾图像中的大多数局部斑块包含一些像素,这些像素的强度起码有一个颜色通道处于低状态。使用这种基于雾度成像模型的先验方法,我们可以直接估计图像的雾霾厚度,借此将图像恢复至高质量的无雾状态。各种模糊图像的去雾结果证明了论文所提出先验方法的成效。此外,我们可以通过该方法获得高质量的深度图。
62 | # 2008(两篇)
63 | ### Global Stereo Reconstruction under Second Order Smoothness Priors
64 | 3D 曲面平滑度中的二阶先验是比一阶先验更好的典型场景模型。然而,基于全局推理算法(如图形切割)的二阶平滑先验法未能与二阶先验很好地进行结合,因为表达所需的三重集会产生难以处理的(非子模块)优化问题。 本文表明三重集的推理可以获得有效的优化。作者提出的优化策略是基于 α 扩展的最新研究结果,源自「QPBO」算法。该策略通过 QPBO 算法的最新扩展对提议深度图进行重复合并。对于提案深度图的来源并不受局限,比如可以是α扩展的前平行平面,亦或者带有任意参数设置的实际立体算法。最终实验结果证明了二阶先验法以及框架优化策略的有效性。
65 | ### Beyond Sliding Windows: Object Localization by Efficient Subwindow Search
66 | 大部分有效的物体识别系统都依赖于二进制分类,不过这种方法只能确认物体是否存在,而无法提供物体的实际位置。为了实现物体定位功能,我们可以考虑采用滑动窗口法,然而这将大大增加计算成本,因为必须在大量的候选子窗口上进行分类器函数评估。 为此,论文提出了一种简单而强大的分支界定方案,可以在所有可能子图像上有效最大化大类分类器函数。它在次线性时间内提供基于全局最优解的收敛方案。论文展示了该方法如何适用于不同的检测对象与场景。该方案实现的加速效果允许使用类似具有空间金字塔内核的 SVMs 或者基于χ2-距离的最近邻分类器来进行物体定位,而在过去,这些分类器被认为在处理相关任务时的速度太慢了。该方案在 UIUC 车辆数据集、PASCAL VOC 2006 数据集以及 PASCAL VOC 2007 竞赛中均取得了最先进的结果。
67 |
--------------------------------------------------------------------------------
/Paper_Reading/dataset.md:
--------------------------------------------------------------------------------
1 | # 1. (ACCV 2018)
2 | ## Title: NightOwls: A Pedestrians at Night Dataset
3 | ### Keywords: University of Oxford (VGG), Pedestrian Detection
4 | 本文提出一个全面的公共数据集,NightOwls,用于夜间行人检测。与白天条件相比,夜间的行人检测更具挑战性,因为夜间的光照变化和低、反射、模糊和对比度变化。该数据集包含了27万9千帧,40个序列,由一个行业标准的相机在3个国家的夜间记录,包括不同的季节和天气条件。所有的帧都是完全注释的,并包含额外的对象属性,如遮挡、姿态和难度,以及跟踪信息,以在多个帧中识别相同的对象。
5 | # 2. (IJCAI 2020)
6 | ## Title: When Pedestrian Detection Meets Nighttime Surveillance: A New Benchmark
7 | ### Keywords: Pedestrian Detection, Nighttime Surveillance
8 | 作者提出一个新的数据集:NightSurveillance。在过去,关于夜间pedestrians detection的数据集都是由一个车载摄像机拍摄的,主要用于自动驾驶的场景,而NightSurveillance从监控摄像头的角度采集数据,为夜间行人监控提供了一个benchmark。
9 | # 3: (TPAMI 2022)
10 | ### Title: ZoomNAS: Searching for Whole-body Human Pose Estimation in the Wild
11 | ### Keywords: Whole-body human pose estimation, neural architecture search, in-the-wild dataset
12 | 本文提出ZoomNet单网络方法,并提出ZoomNAS神经架构搜索框架,以提高全身姿态估计的准确性和效率,还引入了第一个大规模2D人体全身数据集:COCO-WholeBody V1.0。数据集:https://github.com/jin-s13/COCO-WholeBody。
13 | # 4: (NIPS 2022)
14 | ### Title: Flare7K: A Phenomenological Nighttime Flare Removal Dataset
15 | ### Keywords: nighttime flare removal, dataset, scattering flares, reflective flares
16 | 第一个夜间炫光去除数据集——Flare7K。它是基于对真实世界夜间镜片炫光的观察和统计生成的。提供了5000个炫光和2000个反射炫光图像,包括25种散射炫光和10种反射炫光。开源。南洋理工大学。
17 | # 5. (ECCV 2022)
18 | ### Title: DEArt: Dataset of European Art
19 | ### Keywords: Deep Learning, Computer Vision, Cultural Heritage, Object Detection
20 | 本文从文化遗产的角度出发,收集了一个面向object detection 和 pose classification任务的艺术绘画数据集,DEArt。论文中详细描述了Object categories、Pose categories、Image collection process、Image annotation、Dataset statistics。并且在实验部分,从Object detection和Pose classification两个任务上评估了在DEArt上的性能。
21 | # 6. (NIPS 2022)
22 | ### Title: I see you: A Vehicle-Pedestrian Interaction Dataset from Traffic Surveillance Cameras
23 | ### Keywords: vehicle-pedestrian interactions, near-accident scenarios
24 | 当前的vehicle-pedestrian interaction scenarios数据集缺少near-accident scenarios,而这对于自动驾驶是至关重要的。本文发布了I see you Dataset,该数据集关注dangerous situations and scenarios,并且提供了GPS坐标下的车和行人的轨迹标记。
25 | # 7. (CVPR 2019)
26 | ### Title: SIXray: A Large-scale Security Inspection X-ray Benchmark for Prohibited Item Discovery in Overlapping Images
27 | ### Keywords: Security Inspection, Prohibited Item Detection, X-ray Benchmark
28 | 本文关注安全检查(安检)场景,违规物品检测任务,提出了一个大规模的X-ray图像数据集,称为SIXray,包含六个类别:Gun, Knife, Wrench, Pliers, Scissors, Hammer和Negative Example。文章分析了该任务面对的挑战,同时提出了一个基线方法。SIXray共有1,059,231张图像,其中包含Positive (8,929)和Negative (1,050,302)。
29 | # 7. (NIPS 2023)
30 | ### Title: Benchmarking Robustness to Adversarial Image Obfuscations
31 | ### Keywords: Benchmark, Robustness, Adversarial Image
32 |
33 |
34 |
--------------------------------------------------------------------------------
/Paper_Reading/deepfake detection.md:
--------------------------------------------------------------------------------
1 | # 1. 20221027
2 | ### Title: Towards A Robust Deepfake Detector: Common Artifact Deepfake Detection Model
3 | ### arXiv 202210 (MEGVII Technology)
4 | 目前deepfake detection技术可以分为两类:一类是利用binary labels训练一个二分类器,这种方式在cross-dataset时性能会降低;一类是学习一些various manipulated forgeries才存在的hand-crafted artifacts,这种方法存在取得比较好的性能提升,但仍是有限的,因为这种hand-crafted artifacts并不是一直存在。本文重新考虑二分类器,认为其跨数据集泛化能力不强是因为Implicit Identity Leakage,在此基础上提出了Common Artifact Deepfake Detection Model,取得SOTA。
--------------------------------------------------------------------------------
/Paper_Reading/survey.md:
--------------------------------------------------------------------------------
1 | # 1: 20221013
2 | ### Title: A Survey on Vision Transformer
3 | ### Venue: TPAMI 2022
4 | 华为、北大、悉尼大学视觉Transformer综述。Transformer是一种主要基于自注意机制的深度神经网络,最初应用于自然语言处理领域。受Transformer强大表示能力的启发,研究人员提出将Transformer扩展到计算机视觉任务。与卷积网络和递归网络等其他网络类型相比,基于Transformer的模型在各种视觉基准上表现出竞争性甚至更好的性能。本文将这些vision transformer分类到不同的任务中,并分析这些方法的优缺点,来提供对这些模型的文献综述。特别是,主要类别包括基本图像分类、高级视觉、低级视觉和视频处理。
5 | # 2: 20221013
6 | ### Title: Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy
7 | ### Venue: ACM CSUR 2021
8 |
9 | # 3: 20221031
10 | ### Title: Adversarial Pretraining of Self-Supervised Deep Networks: Past, Present and Future
11 | ### Venue: arXiv 202210
12 |
13 | # 4. 20221031
14 | ### Title: A Survey of Computer Vision Technologies In Urban and Controlled-environment Agriculture
15 | ### Venue: arXiv 202210
16 | Nanyang Technological University, Singapore. 本文关注计算机视觉在Controlled-environment agriculture (CEA) 领域的应用,旨在使计算机视觉研究者了解农业应用和农业从业者及其解决方案。首先本文总结了应用于CEA的两个计算机视觉任务:Image Recognition、Object Detection、Semantic, Instance, and Panoptic Segmentation、Uncertainty Quantification、Interpretability。然后调研了68篇技术文献和9个视觉CEA数据集。此外,本文还讨论了计算机视觉任务如何和CEA任务关联,并提供了4个潜在的两个领域的交叉研究方向。
17 | # 5. 20221104
18 | ### Title: Physically Adversarial Attacks and Defenses in Computer Vision: A Survey
19 | ### Venue: arXiv 202211
20 | 北航、港中文。本文是第一篇物理对抗攻击防御的综述。其中Physical Attacks从三个角度介绍:Attack Task, Attack Forms, Attack Methods。Physical Defense从三个角度介绍:Pre-processing, In-Processing, Post-Processing。共调研了90篇对抗攻防方法。
21 | # 6. 20221107
22 | ### Title: 深度学习中的后门攻击综述
23 | ### Venue: 信息安全学报
24 | 上交。本文介绍了后门攻击(中文),是一篇不错的了解后门攻击的论文。首先分析了后门攻击和其他攻击范式的区别, 定义了基本的攻击方法和流程, 然后对后门攻击的敌手模型、评估指标、攻击设置等方面进行了总结。接着, 将现有的攻击方法从可见性、触发器类型、标签类型以及攻击场景等多个维度进行分类, 包含了计算机视觉和自然语言处理在内的多个领域。此外, 还总结了后门攻击研究中常用的任务、数据集与深度学习模型, 并介绍了后门攻击在数据隐私、模型保护以及模型水印等方面的有益应用, 最后对未来的关键研究方向进行了展望。
25 | # 7. 20221109
26 | ### Title: Learned Smartphone ISP on Mobile GPUs with Deep Learning, Mobile AI & AIM 2022 Challenge: Report
27 | ### Venue: arXiv 202211
28 | 本文介绍了Mobile AI & AIM 2022 Challenge,并介绍了该挑战赛中的models。这个挑战赛提供了数据集、评估平台等。手机拍照的场景越来越重要,围绕手机开展的研究是一个practical的方向。
29 | # 8. 20221110
30 | ### Title: A survey on adversarial attacks in computer vision: Taxonomy, visualization and future directions
31 | ### Venue: Computers & Security 2022
32 | # 9. 20221110
33 | ### Title: Digital and Physical Face Attacks: Reviewing and One Step Further
34 | ### Venue: Arxiv 202209
35 | # 10. 20221111
36 | ### Title: Deep Learning based Computer Vision Methods for Complex Traffic Environments Perception: A Review
37 | ### Venue: Arxiv 202211
38 | # 11. 20231101
39 | ### Title: A Survey on Transferability of Adversarial Examples across Deep Neural Networks
40 | ### Venue: Arxiv 202310
41 | # 11. 20231111
42 | ### Title: Image-Based Virtual Try-On: A Survey
43 | ### Venue: TPAMI 2023
--------------------------------------------------------------------------------
/Paper_Writting/Figure_gallery_for_reference.md:
--------------------------------------------------------------------------------
1 | ## Paper: Inverting the Imaging Process by Learning an Implicit Camera Model (CVPR 2023)
2 | 
3 |
4 | ## Paper: Pixel is All You Need: Adversarial Trajectory-Ensemble Active Learning for Salient Object Detection (AAAI 2023)
5 |
6 |
7 |
8 |
9 | 
10 |
11 | ## Paper: DiffCloth: Differentiable Cloth Simulation with Dry Frictional Contact (SIGGRAPH 2022)
12 |
13 |
14 | ## Paper: VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval (CVPR 2023)
15 |
16 |
17 | ## Paper: Downstream-agnostic Adversarial Examples (ICCV 2023)
18 |
19 |
20 | ## Paper: Deep learning-based robust positioning for all-weather autonomous driving (NMI 2022)
21 |
22 |
23 | ## Paper: Construction of a 3D whole organism spatial atlas by joint modelling of multiple slices with deep neural networks (NMI 2023)
24 |
25 |
26 | ## Paper: Fisher Information guided Purification against Backdoor Attacks (ACM CCS 2024)
27 |
28 |
29 |
--------------------------------------------------------------------------------
/Paper_Writting/bibliography.bib:
--------------------------------------------------------------------------------
1 | % faster R-CNN
2 | @article{ren2015faster,
3 | title={Faster r-cnn: Towards real-time object detection with region proposal networks},
4 | author={Ren, Shaoqing and He, Kaiming and Girshick, Ross and Sun, Jian},
5 | journal={Advances in neural information processing systems},
6 | volume={28},
7 | year={2015}
8 | }
9 |
10 | % YOLO
11 | @inproceedings{redmon2016you,
12 | title={You only look once: Unified, real-time object detection},
13 | author={Redmon, Joseph and Divvala, Santosh and Girshick, Ross and Farhadi, Ali},
14 | booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
15 | pages={779--788},
16 | year={2016}
17 | }
18 |
19 | @inproceedings{Adam2015Diederik,
20 | author = {Diederik P. Kingma and
21 | Jimmy Ba},
22 | title = {Adam: {A} Method for Stochastic Optimization},
23 | booktitle = {3rd International Conference on Learning Representations, {ICLR} 2015,
24 | San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings},
25 | year = {2015},
26 | }
27 |
28 | @software{yolov52013,
29 | title = {Ultralytics YOLOv5},
30 | author = {Glenn Jocher},
31 | year = {2020},
32 | version = {7.0},
33 | license = {AGPL-3.0},
34 | url = {https://github.com/ultralytics/yolov5},
35 | doi = {10.5281/zenodo.3908559},
36 | orcid = {0000-0001-5950-6979}
37 | }
38 |
39 | @software{yolov8ultralytics,
40 | author = {Glenn Jocher and Ayush Chaurasia and Jing Qiu},
41 | title = {Ultralytics YOLOv8},
42 | version = {8.0.0},
43 | year = {2023},
44 | url = {https://github.com/ultralytics/ultralytics},
45 | orcid = {0000-0001-5950-6979, 0000-0002-7603-6750, 0000-0003-3783-7069},
46 | license = {AGPL-3.0}
47 | }
48 |
49 | @inproceedings{redmon2017yolo9000,
50 | title={YOLO9000: better, faster, stronger},
51 | author={Redmon, Joseph and Farhadi, Ali},
52 | booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
53 | pages={7263--7271},
54 | year={2017}
55 | }
56 |
57 | @inproceedings{farhadi2018yolov3,
58 | title={Yolov3: An incremental improvement},
59 | author={Farhadi, Ali and Redmon, Joseph},
60 | booktitle={Computer vision and pattern recognition},
61 | volume={1804},
62 | pages={1--6},
63 | year={2018},
64 | organization={Springer Berlin/Heidelberg, Germany}
65 | }
66 |
67 | @inproceedings{wang2023yolov7,
68 | title={YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors},
69 | author={Wang, Chien-Yao and Bochkovskiy, Alexey and Liao, Hong-Yuan Mark},
70 | booktitle={Proceedings of the IEEE/CVF conference on computer vision and pattern recognition},
71 | pages={7464--7475},
72 | year={2023}
73 | }
74 |
75 | @misc{yolov8Ultralytics,
76 | author = {Ultralytics},
77 | title = {yolov8},
78 | year = {2021},
79 | howpublished = {\url{https://github.com/ultralytics/ultralytics}},
80 | note = {Accessed: 2024-05-28}
81 | }
82 |
83 | % coco dataset
84 | @inproceedings{lin2014microsoft,
85 | title={Microsoft coco: Common objects in context},
86 | author={Lin, Tsung-Yi and Maire, Michael and Belongie, Serge and Hays, James and Perona, Pietro and Ramanan, Deva and Doll{\'a}r, Piotr and Zitnick, C Lawrence},
87 | booktitle={European conference on computer vision},
88 | year={2014}
89 | }
90 |
91 | % inria dataset
92 | @misc{inriadataset,
93 | title = {INRIA Person detection dataset Dataset},
94 | type = {Open Source Dataset},
95 | author = {Pascal to Yolo},
96 | howpublished = {\url{https://universe.roboflow.com/pascal-to-yolo-8yygq/inria-person-detection-dataset}},
97 | url = {https://universe.roboflow.com/pascal-to-yolo-8yygq/inria-person-detection-dataset},
98 | journal = {Roboflow Universe},
99 | publisher = {Roboflow},
100 | year = { 2022 },
101 | month = { dec },
102 | note = { visited on 2023-10-28 },
103 | }
104 |
105 | % inria dataset
106 | @inproceedings{dalal2005histograms,
107 | title={Histograms of oriented gradients for human detection},
108 | author={Dalal, Navneet and Triggs, Bill},
109 | booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
110 | volume={1},
111 | pages={886--893},
112 | year={2005},
113 | organization={IEEE}
114 | }
115 |
116 | % hotcold block
117 | @inproceedings{wei2023hotcold,
118 | title={Hotcold block: Fooling thermal infrared detectors with a novel wearable design},
119 | author={Wei, Hui and Wang, Zhixiang and Jia, Xuemei and Zheng, Yinqiang and Tang, Hao and Satoh, Shin'ichi and Wang, Zheng},
120 | booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
121 | volume={37},
122 | number={12},
123 | pages={15233--15241},
124 | year={2023}
125 | }
126 |
127 | % Thermal camera
128 | @article{gade2014thermal,
129 | title={Thermal cameras and applications: a survey},
130 | author={Gade, Rikke and Moeslund, Thomas B},
131 | journal={Machine vision and applications},
132 | volume={25},
133 | pages={245--262},
134 | year={2014},
135 | publisher={Springer}
136 | }
137 |
138 | % UPC
139 | @inproceedings{huang2020universal,
140 | title={Universal physical camouflage attacks on object detectors},
141 | author={Huang, Lifeng and Gao, Chengying and Zhou, Yuyin and Xie, Cihang and Yuille, Alan L and Zou, Changqing and Liu, Ning},
142 | booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
143 | pages={720--729},
144 | year={2020}
145 | }
146 |
147 | % RP2
148 | @inproceedings{eykholt2018robust,
149 | title={Robust physical-world attacks on deep learning visual classification},
150 | author={Eykholt, Kevin and Evtimov, Ivan and Fernandes, Earlence and Li, Bo and Rahmati, Amir and Xiao, Chaowei and Prakash, Atul and Kohno, Tadayoshi and Song, Dawn},
151 | booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
152 | pages={1625--1634},
153 | year={2018}
154 | }
155 |
156 | % PSF
157 | @inproceedings{narasimhan2003shedding,
158 | title={Shedding light on the weather},
159 | author={Narasimhan, Srinivasa G and Nayar, Shree K},
160 | booktitle={2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2003. Proceedings.},
161 | volume={1},
162 | pages={I--I},
163 | year={2003},
164 | organization={IEEE}
165 | }
166 |
167 | % texture
168 | @inproceedings{hu2022adversarial,
169 | title={Adversarial Texture for Fooling Person Detectors in the Physical World},
170 | author={Hu, Zhanhao and Huang, Siyuan and Zhu, Xiaopei and Sun, Fuchun and Zhang, Bo and Hu, Xiaolin},
171 | booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
172 | pages={13307--13316},
173 | year={2022}
174 | }
175 |
176 | % cloak
177 | @inproceedings{wu2020making,
178 | title={Making an invisibility cloak: Real world adversarial attacks on object detectors},
179 | author={Wu, Zuxuan and Lim, Ser-Nam and Davis, Larry S and Goldstein, Tom},
180 | booktitle={European Conference on Computer Vision},
181 | pages={1--17},
182 | year={2020},
183 | organization={Springer}
184 | }
185 |
186 | % adversarial patch
187 | @inproceedings{brown2017adversarial,
188 | title={Adversarial patch},
189 | author={Brown, Tom B and Man{\'e}, Dandelion and Roy, Aurko and Abadi, Mart{\'\i}n and Gilmer, Justin},
190 | booktitle={Proceedings of the Advances in Neural Information Processing Systems Workshop},
191 | year={2017}
192 | }
193 |
194 | % PSO
195 | @article{poli2007particle,
196 | title={Particle swarm optimization},
197 | author={Poli, Riccardo and Kennedy, James and Blackwell, Tim},
198 | journal={Swarm intelligence},
199 | volume={1},
200 | number={1},
201 | pages={33--57},
202 | year={2007},
203 | publisher={Springer}
204 | }
205 |
206 | % defense: adversarial training
207 | @inproceedings{zhou2022modeling,
208 | title={Modeling adversarial noise for adversarial training},
209 | author={Zhou, Dawei and Wang, Nannan and Han, Bo and Liu, Tongliang},
210 | booktitle={International Conference on Machine Learning},
211 | pages={27353--27366},
212 | year={2022},
213 | organization={PMLR}
214 | }
215 |
216 | % defense: attack detection
217 | @inproceedings{liu2022segment,
218 | title={Segment and complete: Defending object detectors against adversarial patch attacks with robust patch detection},
219 | author={Liu, Jiang and Levine, Alexander and Lau, Chun Pong and Chellappa, Rama and Feizi, Soheil},
220 | booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
221 | pages={14973--14982},
222 | year={2022}
223 | }
224 |
225 | % shadow
226 | @inproceedings{zhong2022shadows,
227 | title={Shadows can be Dangerous: Stealthy and Effective Physical-world Adversarial Attack by Natural Phenomenon},
228 | author={Zhong, Yiqi and Liu, Xianming and Zhai, Deming and Jiang, Junjun and Ji, Xiangyang},
229 | booktitle={IEEE/CVF Conference on Computer Vision and Pattern Recognition},
230 | year={2022}
231 | }
232 |
233 | % adversarial eyeglass
234 | @inproceedings{sharif2016accessorize,
235 | title={Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition},
236 | author={Sharif, Mahmood and Bhagavatula, Sruti and Bauer, Lujo and Reiter, Michael K},
237 | booktitle={Proceedings of the 2016 acm sigsac conference on computer and communications security},
238 | pages={1528--1540},
239 | year={2016}
240 | }
241 |
242 | % one pixel attack
243 | @article{su2019one,
244 | title={One pixel attack for fooling deep neural networks},
245 | author={Su, Jiawei and Vargas, Danilo Vasconcellos and Sakurai, Kouichi},
246 | journal={IEEE Transactions on Evolutionary Computation},
247 | volume={23},
248 | number={5},
249 | pages={828--841},
250 | year={2019},
251 | publisher={IEEE}
252 | }
253 |
254 | % fooling person detector
255 | @inproceedings{thys2019fooling,
256 | title={Fooling automated surveillance cameras: adversarial patches to attack person detection},
257 | author={Thys, Simen and Van Ranst, Wiebe and Goedem{\'e}, Toon},
258 | booktitle={Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops},
259 | pages={0--0},
260 | year={2019}
261 | }
262 |
263 | % digital to physical
264 | @inproceedings{jan2019connecting,
265 | title={Connecting the digital and physical world: Improving the robustness of adversarial attacks},
266 | author={Jan, Steve TK and Messou, Joseph and Lin, Yen-Chen and Huang, Jia-Bin and Wang, Gang},
267 | booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
268 | volume={33},
269 | number={01},
270 | pages={962--969},
271 | year={2019}
272 | }
273 |
274 | % LAP
275 | @inproceedings{tan2021legitimate,
276 | title={Legitimate Adversarial Patches: Evading Human Eyes and Detection Models in the Physical World},
277 | author={Tan, Jia and Ji, Nan and Xie, Haidong and Xiang, Xueshuang},
278 | booktitle={ACM International Conference on Multimedia},
279 | year={2021}
280 | }
281 |
282 | % t-shirt
283 | @inproceedings{xu2020adversarial,
284 | title={Adversarial t-shirt! evading person detectors in a physical world},
285 | author={Xu, Kaidi and Zhang, Gaoyuan and Liu, Sijia and Fan, Quanfu and Sun, Mengshu and Chen, Hongge and Chen, Pin-Yu and Wang, Yanzhi and Lin, Xue},
286 | booktitle={European conference on computer vision},
287 | year={2020}
288 | }
289 |
290 | % TSEA
291 | @inproceedings{huang2023t,
292 | title={T-sea: Transfer-based self-ensemble attack on object detection},
293 | author={Huang, Hao and Chen, Ziyan and Chen, Huanran and Wang, Yongtao and Zhang, Kevin},
294 | booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
295 | pages={20514--20523},
296 | year={2023}
297 | }
298 |
299 | % shadow attack
300 | @inproceedings{zhong2022shadows,
301 | title={Shadows can be dangerous: Stealthy and effective physical-world adversarial attack by natural phenomenon},
302 | author={Zhong, Yiqi and Liu, Xianming and Zhai, Deming and Jiang, Junjun and Ji, Xiangyang},
303 | booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
304 | pages={15345--15354},
305 | year={2022}
306 | }
307 |
308 | % mask
309 | @inproceedings{zolfi2022adversarial,
310 | title={Adversarial Mask: Real-World Universal Adversarial Attack on Face Recognition Models},
311 | author={Zolfi, Alon and Avidan, Shai and Elovici, Yuval and Shabtai, Asaf},
312 | booktitle={Joint European Conference on Machine Learning and Knowledge Discovery in Databases},
313 | pages={304--320},
314 | year={2022},
315 | organization={Springer}
316 | }
317 |
318 | % depth
319 | @inproceedings{cheng2022physical,
320 | title={Physical attack on monocular depth estimation with optimal adversarial patches},
321 | author={Cheng, Zhiyuan and Liang, James and Choi, Hongjun and Tao, Guanhong and Cao, Zhiwen and Liu, Dongfang and Zhang, Xiangyu},
322 | booktitle={European Conference on Computer Vision},
323 | pages={514--532},
324 | year={2022},
325 | organization={Springer}
326 | }
327 |
328 | % NAP
329 | @inproceedings{hu2021naturalistic,
330 | title={Naturalistic Physical Adversarial Patch for Object Detectors},
331 | author={Hu, Yu-Chih-Tuan and Kung, Bo-Han and Tan, Daniel Stanley and Chen, Jun-Cheng and Hua, Kai-Lung and Cheng, Wen-Huang},
332 | booktitle={IEEE/CVF International Conference on Computer Vision},
333 | year={2021}
334 | }
335 |
336 | # qrattack
337 | @inproceedings{zhu2022infrared,
338 | title={Infrared Invisible Clothing: Hiding from Infrared Detectors at Multiple Angles in Real World},
339 | author={Zhu, Xiaopei and Hu, Zhanhao and Huang, Siyuan and Li, Jianmin and Hu, Xiaolin},
340 | booktitle={IEEE/CVF Conference on Computer Vision and Pattern Recognition},
341 | year={2022}
342 | }
343 |
344 | % adv bulb
345 | @inproceedings{zhu2021fooling,
346 | title={Fooling thermal infrared pedestrian detectors in real world using small bulbs},
347 | author={Zhu, Xiaopei and Li, Xiao and Li, Jianmin and Wang, Zheyao and Hu, Xiaolin},
348 | booktitle={AAAI Conference on Artificial Intelligence},
349 | year={2021}
350 | }
351 |
352 | % segmentation
353 | @inproceedings{nesti2022evaluating,
354 | title={Evaluating the robustness of semantic segmentation for autonomous driving against real-world adversarial patch attacks},
355 | author={Nesti, Federico and Rossolini, Giulio and Nair, Saasha and Biondi, Alessandro and Buttazzo, Giorgio},
356 | booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision},
357 | pages={2280--2289},
358 | year={2022}
359 | }
360 |
361 | % hat
362 | @inproceedings{komkov2021advhat,
363 | title={Advhat: Real-world adversarial attack on arcface face id system},
364 | author={Komkov, Stepan and Petiushko, Aleksandr},
365 | booktitle={International Conference on Pattern Recognition},
366 | year={2021},
367 | }
368 |
369 | % makeup
370 | @inproceedings{yin2021adv,
371 | title={Adv-Makeup: A New Imperceptible and Transferable Attack on Face Recognition},
372 | author={Yin, Bangjie and Wang, Wenxuan and Yao, Taiping and Guo, Junfeng and Kong, Zelun and Ding, Shouhong and Li, Jilin and Liu, Cong},
373 | booktitle={International Joint Conference on Artificial Intelligence},
374 | year={2021}
375 | }
376 |
377 | % gan
378 | @article{goodfellow2014generative,
379 | title={Generative adversarial nets},
380 | author={Goodfellow, Ian and Pouget-Abadie, Jean and Mirza, Mehdi and Xu, Bing and Warde-Farley, David and Ozair, Sherjil and Courville, Aaron and Bengio, Yoshua},
381 | journal={Advances in neural information processing systems},
382 | volume={27},
383 | year={2014}
384 | }
385 |
386 | @inproceedings{isola2017image,
387 | title={Image-to-image translation with conditional adversarial networks},
388 | author={Isola, Phillip and Zhu, Jun-Yan and Zhou, Tinghui and Efros, Alexei A},
389 | booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
390 | pages={1125--1134},
391 | year={2017}
392 | }
393 |
394 | % laser beam
395 | @inproceedings{duan2021adversarial,
396 | title={Adversarial laser beam: Effective physical-world attack to dnns in a blink},
397 | author={Duan, Ranjie and Mao, Xiaofeng and Qin, A Kai and Chen, Yuefeng and Ye, Shaokai and He, Yuan and Yang, Yun},
398 | booktitle={IEEE/CVF Conference on Computer Vision and Pattern Recognition},
399 | year={2021}
400 | }
401 |
402 | % GA optimization
403 | @article{mirjalili2019genetic,
404 | title={Genetic algorithm},
405 | author={Mirjalili, Seyedali and Mirjalili, Seyedali},
406 | journal={Evolutionary Algorithms and Neural Networks: Theory and Applications},
407 | pages={43--55},
408 | year={2019},
409 | publisher={Springer}
410 | }
411 |
412 | % detr
413 | @inproceedings{detr,
414 | author = {Nicolas Carion and
415 | Francisco Massa and
416 | Gabriel Synnaeve and
417 | Nicolas Usunier and
418 | Alexander Kirillov and
419 | Sergey Zagoruyko},
420 | title = {End-to-End Object Detection with Transformers},
421 | booktitle = {European conference on computer vision},
422 | year = {2020}
423 | }
424 |
425 | % mask r-cnn
426 | @inproceedings{He_2017,
427 | title={Mask r-cnn},
428 | author={He, Kaiming and Gkioxari, Georgia and Doll{\'a}r, Piotr and Girshick, Ross},
429 | booktitle={IEEE/CVF International Conference on Computer Vision},
430 | year={2017}
431 | }
432 |
433 | % deep learning
434 | @article{lecun2015deep,
435 | title={Deep learning},
436 | author={LeCun, Yann and Bengio, Yoshua and Hinton, Geoffrey},
437 | journal={nature},
438 | volume={521},
439 | number={7553},
440 | pages={436--444},
441 | year={2015},
442 | publisher={Nature Publishing Group UK London}
443 | }
444 |
445 | % PSO
446 | @article{poli2007particle,
447 | title={Particle swarm optimization},
448 | author={Poli, Riccardo and Kennedy, James and Blackwell, Tim},
449 | journal={Swarm intelligence},
450 | volume={1},
451 | number={1},
452 | pages={33--57},
453 | year={2007},
454 | publisher={Springer}
455 | }
456 |
457 | % genetic
458 | @article{mirjalili2019genetic,
459 | title={Genetic algorithm},
460 | author={Mirjalili, Seyedali and Mirjalili, Seyedali},
461 | journal={Evolutionary Algorithms and Neural Networks: Theory and Applications},
462 | pages={43--55},
463 | year={2019},
464 | publisher={Springer}
465 | }
466 |
467 | %Unet
468 | @inproceedings{ronneberger2015u,
469 | title={U-net: Convolutional networks for biomedical image segmentation},
470 | author={Ronneberger, Olaf and Fischer, Philipp and Brox, Thomas},
471 | booktitle={Medical Image Computing and Computer-Assisted Intervention--MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18},
472 | pages={234--241},
473 | year={2015},
474 | organization={Springer}
475 | }
476 |
477 |
478 | % first work of adversarial example
479 | @inproceedings{DBLPSzegedyZSBEGF13,
480 | author = {Christian Szegedy and
481 | Wojciech Zaremba and
482 | Ilya Sutskever and
483 | Joan Bruna and
484 | Dumitru Erhan and
485 | Ian J. Goodfellow and
486 | Rob Fergus},
487 | editor = {Yoshua Bengio and
488 | Yann LeCun},
489 | title = {Intriguing properties of neural networks},
490 | booktitle = {2nd International Conference on Learning Representations, {ICLR} 2014,
491 | Banff, AB, Canada, April 14-16, 2014, Conference Track Proceedings},
492 | year = {2014},
493 | timestamp = {Thu, 25 Jul 2019 14:35:25 +0200},
494 | biburl = {https://dblp.org/rec/journals/corr/SzegedyZSBEGF13.bib},
495 | bibsource = {dblp computer science bibliography, https://dblp.org}
496 | }
497 |
498 | % digital attack
499 | @inproceedings{cai2022context,
500 | title={Context-aware transfer attacks for object detection},
501 | author={Cai, Zikui and Xie, Xinxin and Li, Shasha and Yin, Mingjun and Song, Chengyu and Krishnamurthy, Srikanth V and Roy-Chowdhury, Amit K and Asif, M Salman},
502 | booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
503 | volume={36},
504 | number={1},
505 | pages={149--157},
506 | year={2022}
507 | }
508 |
509 | % digital attack
510 | @inproceedings{zhou2023downstream,
511 | title={Downstream-agnostic adversarial examples},
512 | author={Zhou, Ziqi and Hu, Shengshan and Zhao, Ruizhi and Wang, Qian and Zhang, Leo Yu and Hou, Junhui and Jin, Hai},
513 | booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
514 | pages={4345--4355},
515 | year={2023}
516 | }
517 |
518 | % person reID
519 | @inproceedings{wang2019advpattern,
520 | title={advpattern: Physical-world attacks on deep person re-identification via adversarially transformable patterns},
521 | author={Wang, Zhibo and Zheng, Siyan and Song, Mengkai and Wang, Qian and Rahimpour, Alireza and Qi, Hairong},
522 | booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
523 | pages={8341--8350},
524 | year={2019}
525 | }
526 |
527 | % SSD detector
528 | @inproceedings{liu2016ssd,
529 | title={Ssd: Single shot multibox detector},
530 | author={Liu, Wei and Anguelov, Dragomir and Erhan, Dumitru and Szegedy, Christian and Reed, Scott and Fu, Cheng-Yang and Berg, Alexander C},
531 | booktitle={Computer Vision--ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11--14, 2016, Proceedings, Part I 14},
532 | pages={21--37},
533 | year={2016},
534 | organization={Springer}
535 | }
536 |
537 | % FGSM
538 | @inproceedings{dong2018boosting,
539 | title={Boosting adversarial attacks with momentum},
540 | author={Dong, Yinpeng and Liao, Fangzhou and Pang, Tianyu and Su, Hang and Zhu, Jun and Hu, Xiaolin and Li, Jianguo},
541 | booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
542 | pages={9185--9193},
543 | year={2018}
544 | }
545 |
546 | % FGSM
547 | @inproceedings{GoodfellowSS14,
548 | author = {Ian J. Goodfellow and
549 | Jonathon Shlens and
550 | Christian Szegedy},
551 | editor = {Yoshua Bengio and
552 | Yann LeCun},
553 | title = {Explaining and Harnessing Adversarial Examples},
554 | booktitle = {3rd International Conference on Learning Representations, {ICLR} 2015,
555 | San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings},
556 | year = {2015},
557 | url = {http://arxiv.org/abs/1412.6572},
558 | timestamp = {Thu, 25 Jul 2019 14:25:38 +0200},
559 | biburl = {https://dblp.org/rec/journals/corr/GoodfellowSS14.bib},
560 | bibsource = {dblp computer science bibliography, https://dblp.org}
561 | }
562 |
563 | % PGD
564 | @inproceedings{madry2018towards,
565 | title={Towards Deep Learning Models Resistant to Adversarial Attacks},
566 | author={Aleksander Madry and Aleksandar Makelov and Ludwig Schmidt and Dimitris Tsipras and Adrian Vladu},
567 | booktitle={International Conference on Learning Representations},
568 | year={2018},
569 | url={https://openreview.net/forum?id=rJzIBfZAb},
570 | }
571 |
572 | % CW Attack
573 | @inproceedings {CarliniWagner2017,
574 | author = {N. Carlini and D. Wagner},
575 | booktitle = {2017 IEEE Symposium on Security and Privacy (SP)},
576 | title = {Towards Evaluating the Robustness of Neural Networks},
577 | year = {2017},
578 | volume = {},
579 | issn = {2375-1207},
580 | pages = {39-57},
581 | doi = {10.1109/SP.2017.49},
582 | url = {https://doi.ieeecomputersociety.org/10.1109/SP.2017.49},
583 | publisher = {IEEE Computer Society},
584 | address = {Los Alamitos, CA, USA},
585 | month = {may}
586 | }
587 |
588 | % transfer-based attack
589 | @article{cheng2019improving,
590 | title={Improving black-box adversarial attacks with a transfer-based prior},
591 | author={Cheng, Shuyu and Dong, Yinpeng and Pang, Tianyu and Su, Hang and Zhu, Jun},
592 | journal={Advances in neural information processing systems},
593 | volume={32},
594 | year={2019}
595 | }
596 |
597 | % PSGAN
598 | @inproceedings{liu2019perceptual,
599 | title={Perceptual-sensitive gan for generating adversarial patches},
600 | author={Liu, Aishan and Liu, Xianglong and Fan, Jiaxin and Ma, Yuqing and Zhang, Anlan and Xie, Huiyuan and Tao, Dacheng},
601 | booktitle={Proceedings of the AAAI conference on artificial intelligence},
602 | volume={33},
603 | number={01},
604 | pages={1028--1035},
605 | year={2019}
606 | }
607 |
608 | % style transfer
609 | @inproceedings{zhu2017unpaired,
610 | title={Unpaired image-to-image translation using cycle-consistent adversarial networks},
611 | author={Zhu, Jun-Yan and Park, Taesung and Isola, Phillip and Efros, Alexei A},
612 | booktitle={Proceedings of the IEEE international conference on computer vision},
613 | pages={2223--2232},
614 | year={2017}
615 | }
616 |
617 | % style transfer
618 | @inproceedings{johnson2016perceptual,
619 | title={Perceptual losses for real-time style transfer and super-resolution},
620 | author={Johnson, Justin and Alahi, Alexandre and Fei-Fei, Li},
621 | booktitle={European conference on computer vision},
622 | pages={694--711},
623 | year={2016},
624 | organization={Springer}
625 | }
626 |
627 | % vgg
628 | @inproceedings{SimonyanZ14a,
629 | author = {Karen Simonyan and
630 | Andrew Zisserman},
631 | editor = {Yoshua Bengio and
632 | Yann LeCun},
633 | title = {Very Deep Convolutional Networks for Large-Scale Image Recognition},
634 | booktitle = {3rd International Conference on Learning Representations, {ICLR} 2015,
635 | San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings},
636 | year = {2015},
637 | }
638 |
639 | % resnet
640 | @inproceedings{he2016deep,
641 | title={Deep residual learning for image recognition},
642 | author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
643 | booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
644 | pages={770--778},
645 | year={2016}
646 | }
647 |
648 | % InvisibleCloak
649 | @inproceedings{yang2018building,
650 | title={Building Towards" Invisible Cloak": Robust Physical Adversarial Attack on YOLO Object Detector},
651 | author={Yang, Darren Yu and Xiong, Jay and Li, Xincheng and Yan, Xu and Raiti, John and Wang, Yuntao and Wu, HuaQiang and Zhong, Zhenyu},
652 | booktitle={2018 9th IEEE Annual Ubiquitous Computing, Electronics \& Mobile Communication Conference (UEMCON)},
653 | pages={368--374},
654 | year={2018},
655 | organization={IEEE}
656 | }
657 |
658 |
--------------------------------------------------------------------------------
/Paper_Writting/checklist.md:
--------------------------------------------------------------------------------
1 | ### Checklist from Mingming Cheng
2 | 1. limited novelty
3 | 2. show results in a better way
4 | 3. missing experiments to clarify
5 | 4. source code will be released upon paper acceptance
6 | 5. discuss of the limitations
7 | 6. theoretical proof regarding what could (not) happen
8 | 7. analysis the computational/memory cost
9 | 8. try to keep your ideas SHARP
10 | 9. avoid defining many unnecessary terms
11 | 10. be fair (at lease in form)
12 | 11. verified every design decision (try to keep simple)
--------------------------------------------------------------------------------
/Paper_Writting/关于cover letter.md:
--------------------------------------------------------------------------------
1 | ### 来自Ning Yan,科学网,标题: 谁动了我的manuscript。
2 | 1. Cover Letter:这绝不是一个形式主义的文件,它只给editor看。在cover letter里面你可以把自己真实的想法都写出来,比如“A的model是错的,我们的model是对的”。这种说法一般在论文里是很忌讳的,所以cover letter是你唯一的可以写出那些很重要却又不能在论文里畅所欲言的内容的机会。千万不要把cover letter变成一个简单的abstract的复制版。在cover letter里面可以exclude或suggest reviewers。大多数journal会严肃考虑你的exclusion,但是剔除的不要太多,否则他们就没人可选了,你的list也就没有意义了。但是,cover letter也不要太长,1-1.5页就好。
3 |
4 | 2. 一定要好好写figure legend。不要写main text累得半死才去写figure legend。其实editor第一关就看cover letter和figure / figure legend。
5 |
6 | 3. 不是reviewer的每一个point我们都得老老实实地听话,editor有时也会根据reviewer的意见、你的实际情况权衡一下。Ines举了一个例子。某一篇文章,reviewer要求author做virus侵染实验,但是author回复说:因为这个病毒的危害,全美国只有两个实验室可以做这一类实验。于是,editor就放了他们一马,接受文章了。(我自己也有这样的例子,有一次遇到一个特BT的reviewer,提的意见驴唇不对马嘴。于是我给editor写信。editor回复说:我完全同意你的意见,我也认为这个reviewer的意见ABCD你都不用理会,但是E你最好做一下。遇到懂行的editor,是我们的幸运)
7 |
8 | 4. 要学会appeal。即使收到的是完完全全的拒绝信,如果你对自己的paper真的很有信心,也不要放弃最后一次机会:appeal!据Ines讲,在她们手里,通过appeal又救回来的论文有20%(哭死,我过去有3篇文章,其实都不是很差的comment,只不过一看到reject,我二话不说,当天就submit到其他journal了)。
9 |
10 | 5. 看到不好的reviewer's comments or decision,稍微耐心一点点,不要当天就回复。让自己沉静两天,也给editor足够的时间对你的文章换个思维(是啊是啊)
--------------------------------------------------------------------------------
/Paper_Writting/规范ML论文结构.md:
--------------------------------------------------------------------------------
1 | ## 网络资源引用规范
2 | ````
3 | @misc{web_reference,
4 | author={ Author name or company name},
5 | year={YYYY},
6 | title={Title},
7 | howpublished = {\url{https://example.com}},
8 | note = {Accessed: YYYY-MM-DD}
9 | }
10 | ````
--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | # notebook
2 | A notebook for recording my research.
3 |
--------------------------------------------------------------------------------
/Tools/code_clip.md:
--------------------------------------------------------------------------------
1 | ### 1. 新建文件夹
2 | ````python
3 | try:
4 | os.makedirs("/home/wh1")
5 | except OSError:
6 | pass
7 | try:
8 | os.makedirs("/home/wh2")
9 | except OSError:
10 | pass
11 |
12 | # 当文件夹存在会报错,所以采用try...except...语句
13 | ````
14 | ### 2. 确认cuda是否可用
15 | ````python
16 | use_cuda = torch.cuda.is_available()
17 | # 如果有可用 GPU 则会返回 True,否则返回False
18 | dtype = torch.cuda.FloatTensor if use_cuda else torch.FloatTensor
19 | # content_img = image_loader("images/dancing.jpg").type(dtype)
20 | # dtype对应不同数据类型
21 | ````
22 | ### 3. 日志输出
23 | ````python
24 | import logging
25 | def logger_config(log_path,logging_name):
26 | FORMAT = '[%(levelname)s: %(filename)s: %(lineno)4d]: %(message)s'
27 | logger = logging.getLogger(logging_name)
28 | logger.setLevel(level=logging.DEBUG)
29 | handler = logging.FileHandler(log_path, encoding='UTF-8')
30 | handler.setLevel(logging.INFO)
31 | formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
32 | handler.setFormatter(formatter)
33 | console = logging.StreamHandler()
34 | console.setLevel(logging.DEBUG)
35 | logger.addHandler(handler)
36 | logger.addHandler(console)
37 | return logger
38 |
39 | time_stamp = time.strftime("%Y%m%d_%H:%M:%S", time.localtime())
40 | logger = logger_config(log_path=args.outLog + '/log'+ time_stamp +'.txt', logging_name='--->')
41 | logger.info("Train Success: {:.3f}".format(success / total))
42 | ````
43 | ### 4. pytorch框架做图像识别
44 | ````python
45 | import torch
46 | import torchvision.models as models
47 | from PIL import Image
48 | from torchvision import transforms
49 | import torchvision.utils as vutils
50 |
51 |
52 | def print_prob(output):
53 | probabilities = torch.nn.functional.softmax(output[0], dim=0)
54 | with open("imagenet_classes.txt", "r") as f:
55 | categories = [s.strip() for s in f.readlines()]
56 | # Show top categories per image
57 | top5_prob, top5_catid = torch.topk(probabilities, 5)
58 | print("The top5 is following:")
59 | for i in range(top5_prob.size(0)):
60 | print("\t", categories[top5_catid[i]], top5_prob[i].item())
61 | return probabilities
62 |
63 |
64 | filename = "image/dog.jpg"
65 | input_image = Image.open(filename)
66 | mean = [0.485, 0.456, 0.406]
67 | std = [0.229, 0.224, 0.225]
68 | preprocess = transforms.Compose([
69 | transforms.Resize(224),
70 | transforms.CenterCrop(224),
71 | transforms.ToTensor(),
72 | transforms.Normalize(mean=mean, std=std),
73 | ])
74 |
75 | input_tensor = preprocess(input_image)
76 | vutils.save_image(input_tensor.data, "1.png", normalize=True)
77 | input_batch = input_tensor.unsqueeze(0)
78 | classifier = models.vgg19(pretrained=True)
79 | classifier.eval()
80 | with torch.no_grad():
81 | output = classifier(input_batch)
82 | print_prob(output)
83 | print(output.data.max(1)[1][0])
84 | ````
85 | ### 5. 反归一化
86 | ````python
87 | class UnNormalize(object):
88 | def __init__(self, mean, std):
89 | self.mean = mean
90 | self.std = std
91 |
92 | def __call__(self, tensor):
93 | """
94 | Args:
95 | tensor (Tensor): Tensor image of size (C, H, W) to be normalized.
96 | Returns:
97 | Tensor: Normalized image.
98 | """
99 | for t, m, s in zip(tensor, self.mean, self.std):
100 | t.mul_(s).add_(m)
101 | # The normalize code -> t.sub_(m).div_(s)
102 | return tensor
103 | ````
104 | ### 6. 寻找二维tensor中topk个值的位置
105 | ````python
106 | import torch
107 |
108 | k = 3
109 | a = torch.tensor([[1, 8, 3, 4, 6], [1, 10, 3, 7, 6]])
110 | b = torch.topk(a.view(-1), k)
111 | index_max = b.indices
112 | loc_max = []
113 |
114 | for idx in range(2):
115 | x = (index_max[idx] / 5).int().item()
116 | y = (index_max[idx] % 5).item()
117 | loc_max.append([x, y])
118 |
119 | print(loc_max)
120 | ````
121 |
122 | ### 7. 查看当前cuda和cudnn版本
123 | ````
124 | cuda:
125 | cat /usr/local/cuda/version.txt
126 | 或
127 | nvcc --version
128 |
129 | cudnn:
130 | cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
131 | ````
132 |
133 | ### 8. 测试配置的环境cuda和cudnn是否可用
134 | ````python
135 | import torch
136 | print(2.0)
137 | device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
138 | # Assume that we are on a CUDA machine, then this should print a CUDA device:
139 | print(device)
140 |
141 | x = torch.Tensor([2.1])
142 | xx = x.cuda()
143 | print(xx)
144 |
145 | # CUDNN TEST
146 | from torch.backends import cudnn
147 |
148 | print('cudnn is ' + str(cudnn.is_acceptable(xx)))
149 |
150 | ````
151 |
--------------------------------------------------------------------------------
/Tools/cropAndRename.py:
--------------------------------------------------------------------------------
1 | from torchvision import transforms
2 | from PIL import Image, ImageDraw
3 | import os
4 |
5 |
6 | base = 'C:\\Users\\wh\\Desktop\\tmp\\9styles'
7 | num = 0
8 |
9 | tf1 = transforms.Resize(300)
10 | tf2 = transforms.CenterCrop(300)
11 | for root, ds, fs in os.walk(base):
12 | for name in fs:
13 | img_path = root + '/' + name
14 | #img = Image.open(img_path).convert('RGB')
15 | img = Image.open(img_path).convert('L')
16 |
17 | img_resize = tf1(img)
18 | img_crop = tf2(img_resize)
19 | s = '%04d' % num
20 | num += 1
21 | img_crop.save('style_gray/'+s+'.png')
--------------------------------------------------------------------------------
/Tools/draw_inMatlab.md:
--------------------------------------------------------------------------------
1 | ## 1. 柱状图
2 | ```Matlab
3 | % # draw with Matlab
4 | % 单列
5 |
6 | x = 1:1:9;
7 | y = [9, 36, 84, 126, 126, 84, 36, 9, 1];
8 | b = bar(x,y,'FaceColor','flat');
9 |
10 | d = listfonts;
11 |
12 | xtips1 = b(1).XEndPoints;
13 | ytips1 = b(1).YEndPoints;
14 | labels1 = string(b(1).YData);
15 | text(xtips1,ytips1,labels1,'HorizontalAlignment','center',...
16 | 'VerticalAlignment','bottom','FontSize', 15);
17 |
18 | b.EdgeColor = '#FFFFFF';
19 | b.CData(1,:) = [161,217,155]/256;
20 | b.CData(2,:) = [116,196,118]/256;
21 | b.CData(3,:) = [65,171,93]/256;
22 | b.CData(4,:) = [35,139,69]/256;
23 | b.CData(5,:) = [35,139,69]/256;
24 | b.CData(6,:) = [65,171,93]/256;
25 | b.CData(7,:) = [116,196,118]/256;
26 | b.CData(8,:) = [161,217,155]/256;
27 | b.CData(9,:) = [199,233,192]/256;
28 |
29 | set(gca,'FontSize',15);
30 |
31 | title('Combination statistics', 'FontSize', 18)
32 |
33 | txt1 = xlabel('Grid number', 'FontSize', 18);
34 | % set(txt, 'Interpreter', 'latex');
35 | % xlabel('Grid number $n$');
36 | txt2 = ylabel('Number of feasible combinations', 'FontSize', 18);
37 | % set(txt, 'Interpreter', 'latex');
38 |
39 | ax = gcf;
40 | exportgraphics(ax,'output/bar1.pdf','BackgroundColor','none');
41 | % saveas(b, 'output/bar1.pdf')
42 | ```
43 |
44 | ```Matlab
45 | % # draw with Matlab
46 | % 双列
47 |
48 | X = categorical({'W/O Defense','W/ LGS','W/ AT'});
49 | X = reordercats(X,{'W/O Defense','W/ LGS','W/ AT'});
50 | Y = [94.8 94.8 94.9; 43.0 46.2 91.6];
51 |
52 | b = bar(X,Y,'FaceColor','flat');
53 |
54 | d = listfonts;
55 | xtips1 = b(1).XEndPoints;
56 | ytips1 = b(1).YEndPoints;
57 | labels1 = string(b(1).YData);
58 | text(xtips1,ytips1,labels1,'HorizontalAlignment','center',...
59 | 'VerticalAlignment','bottom','FontSize', 15);
60 | xtips2 = b(2).XEndPoints;
61 | ytips2 = b(2).YEndPoints;
62 | labels2 = string(b(2).YData);
63 | text(xtips2,ytips2,labels2,'HorizontalAlignment','center',...
64 | 'VerticalAlignment','bottom','FontSize', 15);
65 |
66 | b(1).EdgeColor = '#FFFFFF';
67 | b(2).EdgeColor = '#FFFFFF';
68 | b(1).CData(1,:) = [65,171,93]/256;
69 | b(1).CData(2,:) = [65,171,93]/256;
70 | b(1).CData(3,:) = [65,171,93]/256;
71 | b(2).CData(1,:) = [255, 127, 127]/256;
72 | b(2).CData(2,:) = [255, 127, 127]/256;
73 | b(2).CData(3,:) = [255, 127, 127]/256;
74 |
75 | set(gca,'FontSize',15);
76 | title('Defense Evaluation', 'FontSize', 18);
77 | txt1 = xlabel('Method', 'FontSize', 18);
78 | txt2 = ylabel('AP (%)', 'FontSize', 18);
79 |
80 | %set(b, {'DisplayName'}, {'W/O Attack','W/ Attack'}');
81 | %legend();
82 | lgd = legend('W/O Attack','W/ Attack');
83 | lgd.Location = 'southwest';
84 |
85 | ylim([0 110])
86 |
87 | ax = gcf;
88 | exportgraphics(ax,'output/bar2.pdf','BackgroundColor','none');
89 |
90 | ```
91 |
92 | ## 2. 折线图
93 | ```Matlab
94 | % 折线图 + 图片
95 |
96 | clear;clc
97 | set(gcf,'position',[0 0 1100 700]);
98 | % 确定整个图片的大小。250,300这两个参数不影响画布大小,其作用是确定画出来的图在电脑屏幕上的显示位置,改为0,0则图显示在电脑左下角。900,400确定画布宽高,900为宽,高400,画出的图为600x200的长方形。
99 |
100 | t = tiledlayout(2,2,'TileSpacing','Compact','Padding','Compact');
101 | nexttile
102 |
103 | img1_path = 'test.jpg';
104 | [X,img1_path] = imread(img1_path);
105 | imshow(X,img1_path)
106 |
107 | nexttile
108 | x1 = [0 0.001001 0.002002 0.003003 0.004004 0.005005 0.006006 0.007007 0.008008 0.009009];
109 | y1 = [1 1 1 1 1 1 1 1 1 1];
110 | AP1 = 0.961;
111 | p1 = plot(x1, y1);
112 | p1.Color = [74/255,165/255,160/255];
113 | p1.LineStyle = '-';
114 | p1.LineWidth = 1.4;
115 | hold on
116 |
117 | x2 = [0 0.001001 0.002002 0.003003 0.004004 0.005005 0.006006 0.007007 0.008008 0.009009];
118 | y2 = [1 1 1 1 1 1 1 0.92308 0.92308 0.92308];
119 | AP2 = 0.743;
120 | p2 = plot(x2, y2);
121 | p2.Color = [221/255,149/255,91/255];
122 | p2.LineStyle = '-';
123 | p2.LineWidth = 1.4;
124 |
125 | txt = 'w/o attack \rightarrow';
126 | text(0.7, 0.9, txt, 'FontSize',14)
127 |
128 | txt = 'w/ patch attack \rightarrow';
129 | text(0.35, 0.7, txt, 'FontSize',14)
130 | hold off
131 |
132 | set(gca,'FontSize',14); % 坐标轴刻度字体大小
133 | ylim([0.0 1.02]);
134 | xlim([0.0 1.02]);
135 | legend('AP = 96.1%','AP = 74.3%', 'FontSize',14, 'Location','southwest');
136 | title('Precision-Recall curve', 'FontSize',19)
137 | xlabel('Recall', 'FontSize',17)
138 | ylabel('Precision', 'FontSize',17)
139 |
140 | nexttile
141 | img1_path = 'test.jpg';
142 | [X,img1_path] = imread(img1_path);
143 | imshow(X,img1_path)
144 |
145 | nexttile
146 | x1 = [0 0.001001 0.002002 0.003003 0.004004 0.005005 0.006006 0.007007];
147 | y1 = [1 1 1 1 1 1 1 1];
148 | AP1 = 0.937;
149 | p1 = plot(x1, y1);
150 | p1.Color = [74/255,165/255,160/255];
151 | p1.LineStyle = '-';
152 | p1.LineWidth = 1.4;
153 | hold on
154 |
155 | x2 = [0 0.001001 0.002002 0.003003 0.004004 0.005005 0.006006 0.007007 0.008008];
156 | y2 = [1 1 1 1 1 1 1 1 1];
157 | AP2 = 0.927;
158 | p2 = plot(x2, y2);
159 | p2.Color = [221/255,149/255,91/255];
160 | p2.LineStyle = '-';
161 | p2.LineWidth = 1.4;
162 |
163 | x3 = [0 0.001001 0.002002 0.003003 0.004004 0.005005 0.006006 0.007007 0.008008];
164 | y3 = [1 1 1 1 1 1 1 1 1];
165 | AP3 = 0.610;
166 | p3 = plot(x3, y3);
167 | p3.Color = [192/255,0/255,0/255];
168 | p3.LineStyle = '-';
169 | p3.LineWidth = 1.4;
170 |
171 | txt = 'w/o attack \rightarrow';
172 | text(0.69, 0.79, txt, 'FontSize',14)
173 |
174 | txt = 'w/ patch attack \rightarrow';
175 | text(0.27, 0.92, txt, 'FontSize',14)
176 |
177 | txt = 'w/ HALO attack \rightarrow';
178 | text(0.3, 0.5, txt, 'FontSize',14)
179 | hold off
180 |
181 | set(gca,'FontSize',14); % 坐标轴刻度字体大小
182 | ylim([0.0 1.02]);
183 | xlim([0.0 1.02]);
184 | legend('AP = 93.7%','AP = 92.7%','AP = 61.0%', 'FontSize',14, 'Location','southwest');
185 | title('Precision-Recall curve', 'FontSize',19)
186 | xlabel('Recall', 'FontSize',17)
187 | ylabel('Precision', 'FontSize',17)
188 |
189 | exportgraphics(t,'figures/test.pdf','BackgroundColor','none','ContentType','vector');
190 | ```
--------------------------------------------------------------------------------
/Tools/image_PCA.md:
--------------------------------------------------------------------------------
1 | ### 1. 对image的color进行主成分分析,画出相应的颜色板以及对应比例
2 | ````python
3 | import cv2 as cv
4 | import numpy as np
5 | import matplotlib.pyplot as plt
6 | from PIL import Image
7 | from sklearn.cluster import KMeans
8 | from collections import Counter
9 |
10 |
11 | def show_img_compar(img_1, img_2):
12 | f, ax = plt.subplots(1, 2, figsize=(10,10))
13 | ax[0].imshow(img_1)
14 | ax[1].imshow(img_2)
15 | ax[0].axis('off')
16 | ax[1].axis('off')
17 | f.tight_layout()
18 | img = Image.fromarray(img_2)
19 | img.save("5.png")
20 | plt.show()
21 |
22 |
23 | img = cv.imread('../dataset/style/0005.png')
24 | img = cv.cvtColor(img, cv.COLOR_BGR2RGB)
25 | img_2 = cv.imread('../dataset/style/0001.png')
26 | img_2 = cv.cvtColor(img_2, cv.COLOR_BGR2RGB)
27 | #show_img_compar(img, img_2)
28 | print("1")
29 |
30 | dim = (300, 300)
31 | # resize image
32 | img = cv.resize(img, dim, interpolation = cv.INTER_AREA)
33 | img_2 = cv.resize(img_2, dim, interpolation = cv.INTER_AREA)
34 |
35 | clt = KMeans(n_clusters=10)
36 | clt.fit(img.reshape(-1, 3))
37 |
38 | def palette(clusters):
39 | width=300
40 | palette = np.zeros((50, width, 3), np.uint8)
41 | steps = width/clusters.cluster_centers_.shape[0]
42 | for idx, centers in enumerate(clusters.cluster_centers_):
43 | palette[:, int(idx*steps):(int((idx+1)*steps)), :] = centers
44 | return palette
45 |
46 |
47 | def palette_perc(k_cluster):
48 | width = 300
49 | palette = np.zeros((50, width, 3), np.uint8)
50 |
51 | n_pixels = len(k_cluster.labels_)
52 | counter = Counter(k_cluster.labels_) # count how many pixels per cluster
53 | perc = {}
54 | for i in counter:
55 | perc[i] = np.round(counter[i] / n_pixels, 2)
56 | perc = dict(sorted(perc.items()))
57 |
58 | # for logging purposes
59 | print(perc)
60 | print(k_cluster.cluster_centers_)
61 |
62 | step = 0
63 |
64 | for idx, centers in enumerate(k_cluster.cluster_centers_):
65 | palette[:, step:int(step + perc[idx] * width + 1), :] = centers
66 | step += int(perc[idx] * width + 1)
67 |
68 | return palette
69 |
70 | clt_1 = clt.fit(img.reshape(-1, 3))
71 | show_img_compar(img, palette_perc(clt_1))
72 | ````
73 |
74 | ### 2. 获取图像的饱和度
75 | ````python
76 | img = Image.open('../dataset/style/0001.png')
77 | colors = img.convert('RGB').getcolors(maxcolors=img.size[0]*img.size[1])
78 | print(len(colors))
79 |
80 | image = cv2.imread('../dataset/style/0006.png')
81 | hsv = cv2.cvtColor(image, cv2.COLOR_RGB2HSV)
82 | H, S, V = cv2.split(hsv)
83 | #print(H, S, V)
84 |
85 | s = S.ravel()[np.flatnonzero(S)]
86 | average_s = sum(s)/len(s)
87 | print(average_s)
88 | ````
--------------------------------------------------------------------------------
/Tools/sign.md:
--------------------------------------------------------------------------------
1 | ## 希腊字母
2 |
3 |
4 |
5 |
6 | 名称 |
7 | 大写 |
8 | code |
9 | 小写 |
10 | code |
11 |
12 |
13 |
14 | alpha |
15 | |
16 | |
17 | $\alpha$ |
18 | $\alpha$ |
19 |
20 |
21 | beta |
22 | |
23 | |
24 | $\beta$ |
25 | $\beta$ |
26 |
27 |
28 | gamma |
29 | $\Gamma$ |
30 | $\Gamma$ |
31 | $\gamma$ |
32 | $\gamma$ |
33 |
34 |
35 | delta |
36 | $\Delta$ |
37 | $\Delta$ |
38 | $\delta$ |
39 | $\delta$ |
40 |
41 |
42 | epsilon |
43 | |
44 | |
45 | $\epsilon$ |
46 | $\epsilon$ |
47 |
48 |
49 | zeta |
50 | |
51 | |
52 | $\zeta$ |
53 | $\zeta$ |
54 |
55 |
56 | eta |
57 | |
58 | |
59 | $\eta$ |
60 | $\eta$ |
61 |
62 |
63 | theta |
64 | $\Theta$ |
65 | $\Theta$ |
66 | $\theta$ |
67 | $\theta$ |
68 |
69 |
70 | iota |
71 | |
72 | |
73 | $\iota$ |
74 | $\iota$ |
75 |
76 |
77 | kappa |
78 | |
79 | |
80 | $\kappa$ |
81 | $\kappa$ |
82 |
83 |
84 | lambda |
85 | $\Lambda$ |
86 | $\Lambda$ |
87 | $\lambda$ |
88 | $\lambda$ |
89 |
90 |
91 | mu |
92 | |
93 | |
94 | $\mu$ |
95 | $\mu$ |
96 |
97 |
98 | nu |
99 | |
100 | |
101 | $\nu$ |
102 | $\nu$ |
103 |
104 |
105 | xi |
106 | $\Xi$ |
107 | $\Xi$ |
108 | $\xi$ |
109 | $\xi$ |
110 |
111 |
112 | omicron |
113 | |
114 | |
115 | $\omicron$ |
116 | $\omicron$ |
117 |
118 |
119 | pi |
120 | $\Pi$ |
121 | $\Pi$ |
122 | $\pi$ |
123 | $\pi$ |
124 |
125 |
126 | rho |
127 | |
128 | |
129 | $\rho$ |
130 | $\rho$ |
131 |
132 |
133 | sigma |
134 | $\Sigma$ |
135 | $\Sigma$ |
136 | $\sigma$ |
137 | $\sigma$ |
138 |
139 |
140 | tau |
141 | |
142 | |
143 | $\tau$ |
144 | $\tau$ |
145 |
146 |
147 | upsilon |
148 | $\Upsilon$ |
149 | $\Upsilon$ |
150 | $\upsilon$ |
151 | $\upsilon$ |
152 |
153 |
154 | phi |
155 | $\Phi$ |
156 | $\Phi$ |
157 | $\phi$ |
158 | $\phi$ |
159 |
160 |
161 | chi |
162 | |
163 | |
164 | $\chi$ |
165 | $\chi$ |
166 |
167 |
168 | psi |
169 | $\Psi$ |
170 | $\Psi$ |
171 | $\psi$ |
172 | $\psi$ |
173 |
174 |
175 | omega |
176 | $\Omega$ |
177 | $\Omega$ |
178 | $\omega$ |
179 | $\omega$ |
180 |
181 |
182 |
183 |
184 | ## 字体
185 | - $\mathbf{ABCDEFGHIJKLMNOPQRSTUVWXYZ}$
186 | \mathbf{ABCDEFGHIJKLMNOPQRSTUVWXYZ}
187 | 粗体,可以用来表示矩阵或向量符号
188 |
189 | - $\mathcal{ABCDEFGHIJKLMNOPQRSTUVWXYZ}$
190 | \mathcal{ABCDEFGHIJKLMNOPQRSTUVWXYZ}
191 | 花体字
192 | $\mathcal L$
193 | (\mathcal L): 常用来表示损失函数
194 | $\mathcal D$
195 | (\mathcal D): 表示样本集
196 | $\mathcal N$
197 | (\mathcal N): 常用来表示高斯分布
198 |
199 | - $\mathit{ABCDEFGHIJKLMNOPQRSTUVWXYZ}$
200 | \mathit{ABCDEFGHIJKLMNOPQRSTUVWXYZ}
201 |
202 | - $\mathrm{ABCDEFGHIJKLMNOPQRSTUVWXYZ}$
203 | \mathrm{ABCDEFGHIJKLMNOPQRSTUVWXYZ}
204 | 公式中的英文字母为正体,常用来表示计量单位、函数、常数、运算符等。e.g., \mathrm{kg}: $\mathrm{kg}$
205 |
206 | - $\mathsf{ABCDEFGHIJKLMNOPQRSTUVWXYZ}$
207 | \mathsf{ABCDEFGHIJKLMNOPQRSTUVWXYZ}
208 |
209 | - $\mathtt{ABCDEFGHIJKLMNOPQRSTUVWXYZ}$
210 | \mathtt{ABCDEFGHIJKLMNOPQRSTUVWXYZ}
211 |
212 | - $\mathbb{ABCDEFGHIJKLMNOPQRSTUVWXYZ}$
213 | \mathbb{ABCDEFGHIJKLMNOPQRSTUVWXYZ}
214 |
215 | - $\mathscr{ABCDEFGHIJKLMNOPQRSTUVWXYZ}$
216 | \mathscr{ABCDEFGHIJKLMNOPQRSTUVWXYZ}
217 |
218 | - $\mathfrak{ABCDEFGHIJKLMNOPQRSTUVWXYZ}$
219 | \mathfrak{ABCDEFGHIJKLMNOPQRSTUVWXYZ}
220 |
221 | ## latex(markdown)中多行公式共用一个编号
222 | 在latex中,对于多行公式,equation只有第一行有编号,而align每一行都有一个不同编号。
223 | 要实现多行公式共用一个编号,且编号居中,可以使用equation+aligned。
224 | ````
225 | $$
226 | \begin{equation}
227 | \begin{aligned}
228 | y_1=a_1x_2+b_1 \\
229 | y_2=a_2x_2+b_2 \\
230 | y_3=a_3x_3+b_3
231 | \end{aligned}
232 | \end{equation}
233 | $$
234 | ````
--------------------------------------------------------------------------------
/Tools/ssimAndpsnr.py:
--------------------------------------------------------------------------------
1 | from kornia.losses.ssim import SSIMLoss
2 | import torchvision.transforms as T
3 | from PIL import Image
4 | import kornia.metrics as metrics
5 | import numpy as np
6 | import math
7 |
8 |
9 | def calculate_psnr(img1, img2, border=0):
10 | # img1 and img2 have range [0, 255]
11 | if not img1.shape == img2.shape:
12 | raise ValueError('Input images must have the same dimensions.')
13 | h, w = img1.shape[:2]
14 | img1 = img1[border:h-border, border:w-border]
15 | img2 = img2[border:h-border, border:w-border]
16 |
17 | img1 = img1.astype(np.float64)
18 | img2 = img2.astype(np.float64)
19 | mse = np.mean((img1 - img2)**2)
20 | if mse == 0:
21 | return float('inf')
22 | return 20 * math.log10(255.0 / math.sqrt(mse))
23 |
24 |
25 | def image_loader(image_name, size):
26 | loader = T.Compose([
27 | T.Resize(size), # scale imported image
28 | T.CenterCrop(size),
29 | T.ToTensor(),
30 | # T.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225))
31 | #T.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5))
32 | ]) # transform it into a torch tensor
33 |
34 | image = Image.open(image_name).convert('RGB')
35 | # fake batch dimension required to fit network's input dimensions
36 | image = loader(image).unsqueeze(0)
37 | return image
38 |
39 | criterion = SSIMLoss(5)
40 |
41 | img_path1 = 'img_ori/1.jpg'
42 | img_path2 = 'img_tar/weight=20.jpg'
43 |
44 | img1 = image_loader(img_path1, 256)
45 | img2 = image_loader(img_path2, 256)
46 | ssim = 1 - criterion(img1, img2)
47 | #psnr = calculate_psnr((img1*255).numpy(), (img2*255).numpy())
48 | psnr = metrics.psnr(img1, img2, 1.)
49 | print(ssim)
50 | print(psnr)
--------------------------------------------------------------------------------
/assets/paperWritting/20231017101123.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20231017101123.png
--------------------------------------------------------------------------------
/assets/paperWritting/20231019093125.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20231019093125.png
--------------------------------------------------------------------------------
/assets/paperWritting/20231019093456.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20231019093456.png
--------------------------------------------------------------------------------
/assets/paperWritting/20231019093647.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20231019093647.png
--------------------------------------------------------------------------------
/assets/paperWritting/20231019093737.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20231019093737.png
--------------------------------------------------------------------------------
/assets/paperWritting/20231019094728.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20231019094728.png
--------------------------------------------------------------------------------
/assets/paperWritting/20231024214232.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20231024214232.png
--------------------------------------------------------------------------------
/assets/paperWritting/20231027160155.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20231027160155.png
--------------------------------------------------------------------------------
/assets/paperWritting/20231113170315.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20231113170315.png
--------------------------------------------------------------------------------
/assets/paperWritting/20240805092946.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/weihui1308/notebook/fee546a4edf3dd34db60abcd724c8e6f6a5bf183/assets/paperWritting/20240805092946.png
--------------------------------------------------------------------------------
/design.md:
--------------------------------------------------------------------------------
1 | 1. 设计首先要有清晰需求
2 | 2. 黑、白、灰的搭配。这中搭配用在梳理内容和设计布局的时候使用
3 | 3. 在2的基础上可以加上蓝色、黄色。蓝色作为背景色,黄色作为字的背景色用以强调
4 | 4. 配色网站:https://material.colorion.co/
5 |
--------------------------------------------------------------------------------
/名词解释.md:
--------------------------------------------------------------------------------
1 | ## end-to-end
2 | 谈到end-to-end,问题的本质是你要解决的问题是多阶段的或多步的。如果分阶段学习的话,第一阶段的最优解不能保证第二阶段的问题达到最优。end-to-end指的是把他们堆在一起来优化,确保最后阶段的解达到最优。
3 | ## event camera
4 | 这种camera不是以固定帧率去捕获图像,对于单个像素点,只有接收的光强产生变化时,该像素点才会输出。是针对拍摄视频而言的。
5 | ## manifold
6 | 中文译作流形。用来表示某种属性所能取到的所有值。流形并不是一个“形状”,而是一个“空间”。例如一篇paper的title为Pose-NDF: Modeling Human Pose Manifolds with Neural Distance Fields。
7 | ## paradigm
8 | Paradigm(范式)是一个领域中主流的行事套路。它包括philosophy (理念) 和 methods (方法) 两部分。
9 | paradigm (范式) = philosophy (理念) + methods (方法) = 主流认为什么事该做 + 方式 + 方法
10 | ## artifact
11 | 人工制品;工艺品。可指一切人参与制作出来的object (尤指有历史或文化价值的)。如data, code, method和painting等。
12 |
--------------------------------------------------------------------------------