├── ChatGPT ├── README.md └── Blog │ ├── ChatGPT_Technology │ ├── ChatGPT_Technical_Detail.md │ ├── ChatGPT_Parameter_is_not_175B.md │ ├── ChatGPT_Inference_Cost.md │ ├── Lessons_Learned_from_ChatGPT_Recurrence.md │ ├── LLM_Emergent_Ability.md │ └── LLM_Pre-training_Guide(Bloom-175B).md │ └── Other │ ├── 深度学习专栏.md │ ├── huggingface.md │ ├── PaperWeekly.md │ ├── oneflow.md │ ├── 机器学习与AI生成创作.md │ ├── NewBeeNLP.md │ ├── 算法邦.md │ ├── DataFun.md │ ├── 专知.md │ ├── 学术头条.md │ ├── Cver.md │ ├── AI有道.md │ ├── 机器学习算法与Python实战.md │ ├── NLP日志录.md │ ├── 机器学习研究组订阅.md │ ├── 新智元.md │ ├── 量子位.md │ └── 机器之心.md ├── .DS_Store ├── images ├── .DS_Store ├── Arron.jpg ├── ArronAI.jpg ├── chatgpt.png ├── AIGC_group.jpg ├── chatgpt-3.jpg └── chatgpt-head.png ├── ChatGPT_VS_GPT4 ├── Word Limit.gif └── GPT4_VS_ChatGPT(from_nytimes).md ├── GPT4 ├── Blog │ ├── GPT4_Technical_Summary.md │ ├── GPT4_Technical_Detail.md │ └── Research_Origin_of_GPT-4.md └── Official │ └── GPT4_Technical_Report_zh.md ├── .gitignore └── AGI ├── OpenAI发布AGI路线图.md ├── Google_OpenXLA.md └── OpenAI_Team.md /ChatGPT/README.md: -------------------------------------------------------------------------------- 1 | # ChatGPT 2 | 3 | 4 | 5 | 6 | 7 | -------------------------------------------------------------------------------- /.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/wshzd/Awesome-AIGC/HEAD/.DS_Store -------------------------------------------------------------------------------- /images/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/wshzd/Awesome-AIGC/HEAD/images/.DS_Store -------------------------------------------------------------------------------- /images/Arron.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/wshzd/Awesome-AIGC/HEAD/images/Arron.jpg -------------------------------------------------------------------------------- /images/ArronAI.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/wshzd/Awesome-AIGC/HEAD/images/ArronAI.jpg -------------------------------------------------------------------------------- /images/chatgpt.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/wshzd/Awesome-AIGC/HEAD/images/chatgpt.png -------------------------------------------------------------------------------- /images/AIGC_group.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/wshzd/Awesome-AIGC/HEAD/images/AIGC_group.jpg -------------------------------------------------------------------------------- /images/chatgpt-3.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/wshzd/Awesome-AIGC/HEAD/images/chatgpt-3.jpg -------------------------------------------------------------------------------- /images/chatgpt-head.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/wshzd/Awesome-AIGC/HEAD/images/chatgpt-head.png -------------------------------------------------------------------------------- /ChatGPT/Blog/ChatGPT_Technology/ChatGPT_Technical_Detail.md: -------------------------------------------------------------------------------- 1 | # ChatGPT_Technical_Detail 2 | 3 | 4 | 5 | 6 | 7 | -------------------------------------------------------------------------------- /ChatGPT_VS_GPT4/Word Limit.gif: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/wshzd/Awesome-AIGC/HEAD/ChatGPT_VS_GPT4/Word Limit.gif -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/深度学习专栏.md: -------------------------------------------------------------------------------- 1 | # 深度学习专栏 2 | * [危!ChatGPT一出,这10大职业可能先丢饭碗](https://mp.weixin.qq.com/s/-ML3t5TgTKtHy9ZFK49uwg) 3 | * [牛逼!ChatGPT中文版VS Code插件来了!免登录、免注册](https://mp.weixin.qq.com/s/gxuxhQpTKs2tjOv_FJUC9A) 4 | * [用 ChatGPT 生成 Excel 公式,太方便了](https://mp.weixin.qq.com/s/7oGnSvhhPbyS-gvkVdSguA) 5 | * [刚刚!微软重新发明搜索引擎:首款 ChatGPT 搜索来了](https://mp.weixin.qq.com/s/A_ARYYJ20b6WU9AI4Xbciw) 6 | * [ChatGPT修bug横扫全场,准确率达78%!网友:程序员要开心了](https://mp.weixin.qq.com/s/5qz5if6oMz-D24QtkHqZYw) 7 | * [ChatGPT 带动股价暴涨119%](https://mp.weixin.qq.com/s/ZxH6D5eYJSo4Kzt_0o4GtQ) 8 | * [Nature 给学术界立规矩:ChatGPT 等大模型不可以成为作者](https://mp.weixin.qq.com/s/k8kYPEVwZ5aQqKMT7fB5IA) 9 | * [用ChatGPT写神经网络:一字不改,结果竟然很好用](https://mp.weixin.qq.com/s/IRhPrE_RBk8fPHEv3yTw6A) 10 | * [程序猿用ChatGPT创造的虚拟老婆,被真女友强制「安乐死」](https://mp.weixin.qq.com/s/Nzun-4kPn0dvi0jcODcJpQ) 11 | * [以防作弊,ChatGPT 遭教育部“拉黑”:师生禁用!](https://mp.weixin.qq.com/s/7-vf2oYmJ4mlFRrwqnpyAQ) 12 | * [ChatGPT 封杀潮......](https://mp.weixin.qq.com/s/6L3lTLGPN_36g4iJcXg0wA) 13 | * [学校封杀,大厂禁用,ChatGPT引发大面积恐慌!](https://mp.weixin.qq.com/s/BFDW2r_ZwSce5UBkEUMEpg) 14 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/huggingface.md: -------------------------------------------------------------------------------- 1 | # huggingface 2 | ## 2023-02-16 3 | * []() 4 | * []() 5 | ## 2023-02-15 6 | * [Zero-shot image-to-text generation with BLIP-2](https://huggingface.co/blog/blip-2) 7 | * []() 8 | * []() 9 | * []() 10 | * []() 11 | * []() 12 | * []() 13 | * []() 14 | * []() 15 | * []() 16 | * []() 17 | ## 2023-02-07 18 | * [Generating Stories: AI for Game Development #5](https://huggingface.co/blog/ml-for-games-5) 19 | * []() 20 | * []() 21 | * []() 22 | * []() 23 | * []() 24 | * []() 25 | * []() 26 | * []() 27 | ## 2023-01-26 28 | * [Using LoRA for Efficient Stable Diffusion Fine-Tuning](https://huggingface.co/blog/lora) 29 | * []() 30 | * []() 31 | * []() 32 | * []() 33 | * []() 34 | * []() 35 | * []() 36 | * []() 37 | * []() 38 | * []() 39 | * []() 40 | * []() 41 | * []() 42 | * []() 43 | * []() 44 | * []() 45 | * []() 46 | * []() 47 | * []() 48 | * []() 49 | * []() 50 | * []() 51 | * []() 52 | * []() 53 | * []() 54 | * []() 55 | * []() 56 | * []() 57 | * []() 58 | * []() 59 | * []() 60 | * []() 61 | * []() 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/PaperWeekly.md: -------------------------------------------------------------------------------- 1 | # PaperWeekly 2 | 3 | ## 2023-02-22 4 | * [深入浅出Prompt Learning要旨及常用方法](https://mp.weixin.qq.com/s/Wgj1ATMAkL1Gx4dsAlkJZw) 5 | ## 2023-02-19 6 | * [万字长文解析!复现和使用GPT-3/ChatGPT,你所应该知道的](https://mp.weixin.qq.com/s/ILpbRRNP10Ef1z3lb2CqmA) 7 | ## 2023-02-18 8 | * [NeurIPS 2022 | 仅需3分钟!开源Transformer快速训练后剪枝框架来了](https://mp.weixin.qq.com/s/XqA_6-i0t5Qcws_uNmAFXw) 9 | ## 2023-02-16 10 | * [学习ChatGPT应该看什么书?我们准备了一份宝藏书单(文末有福利)](https://mp.weixin.qq.com/s/FlCem6x1DyxBXwJFnBKvLQ) 11 | ## 2023-02-15 12 | * [想训练ChatGPT?得先弄明白Reward Model怎么训(附源码)](https://mp.weixin.qq.com/s/1v4Uuc1YAZ9MRr1UWMH9xw) 13 | ## 2023-02-14 14 | * [脑洞大开!把Transformer当通用计算机用,还能执行in-context learning算法](https://mp.weixin.qq.com/s/rtrCdEYHju4kdZOhohRoqw) 15 | ## 2023-02-13 16 | * [ChatGPT那么火,能帮我写论文吗?](https://mp.weixin.qq.com/s/-K0I7NaIP2KSGnkOTMuw3Q) 17 | ## 2023-02-09 18 | * [对话大模型中的事实错误:ChatGPT 的缺陷](https://mp.weixin.qq.com/s/CwYb1uLnzrz7s9jXeqSynw) 19 | ## 2023-02-08 20 | * [Prompt Learning 到底行不行?](https://mp.weixin.qq.com/s/8dbWeoFGsRFUjXKJ8tIAzg) 21 | ## 2023-02-04 22 | * [Transformer升级之路:长度外推性与位置鲁棒性](https://mp.weixin.qq.com/s/uJH9xMqkE8bu24iXTLR4ew) 23 | ## 2023-01-30 24 | * [完美逆袭大模型!有了Fine-tune-CoT方法,小模型也能做推理](https://mp.weixin.qq.com/s/8Aq38OqVkmObjTpAeugbjw) 25 | ## 2023-01-29 26 | * [2023年,Prompt Tuning是否已全面超越Fine-Tuning?](https://mp.weixin.qq.com/s/_UJTuE4ECSanCGRjm_U-eA) 27 | ## 2023-01-09 28 | * [ChatGPT——自然语言处理大结局?](https://mp.weixin.qq.com/s/rPQTMZqcVqNyA4mZUVsXig) 29 | 30 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/oneflow.md: -------------------------------------------------------------------------------- 1 | # oneflow 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | - [OpenAI创始人:GPT-4的研究起源和构建心法](https://mp.weixin.qq.com/s/hO1ZdqgOjpA328luobQ9eg) 8 | 9 | ## 2023-03-15 10 | 11 | - [GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion](https://mp.weixin.qq.com/s/6ZBWXOwv-T3NweKHbPGAWQ) 12 | 13 | ## 2023-03-08 14 | 15 | - [ChatGPT作者John Shulman:我们成功的秘密武器](https://mp.weixin.qq.com/s/sDeBYMvAwbJr5_tj7Q20-w) 16 | 17 | 18 | ## 2023-03-03 19 | 20 | - [Jasper狂飙:AIGC现象级应用的增长秘笈](https://mp.weixin.qq.com/s/skrrjxJg70rtPr2kxv7B7A) 21 | 22 | 23 | ## 2023-03-01 24 | 25 | - [超越ChatGPT:大模型的智能极限](https://mp.weixin.qq.com/s/PteNTHckNAP1iVq10JuONQ) 26 | 27 | 28 | ## 2023-02-27 29 | 30 | - [GPT-3/ChatGPT复现的经验教训](https://mp.weixin.qq.com/s/4B7wX0UhYjWGgozREa2b9w) 31 | 32 | ## 2023-02-23 33 | 34 | * [一块GPU搞定ChatGPT;ML系统入坑指南;理解GPU底层架构](https://mp.weixin.qq.com/s/_FtOkreXWtMbHxe9judUHA) 35 | 36 | 37 | * [ChatGPT搜索风暴](https://mp.weixin.qq.com/s/JHIUc_3nfnxv-m_4YUC1Tw) 38 | * [ChatGPT数据集之谜](https://mp.weixin.qq.com/s/9vOc-OyqvzrO_w5LApurbg) 39 | * [开源ChatGPT要来了;软件2.0智能革命;GLM、Diffusion模型大加速](https://mp.weixin.qq.com/s/Qtn71jLnPxyjTh5Eo1vhXg) 40 | * [ChatGPT背后的经济账](https://mp.weixin.qq.com/s/aAg1ptEkQ6ahdjs-3s_g3A) 41 | * [“零”代码改动,静态编译让太乙Stable Diffusion推理速度翻倍](https://mp.weixin.qq.com/s/XaR1W8yKPYxN5PR1RPMepA) 42 | * [35张图,直观理解Stable Diffusion](https://mp.weixin.qq.com/s/8C2RqYrHZTpFFzaHIbPhRw) 43 | * [2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急](https://mp.weixin.qq.com/s/E_v7k_VlbHA8of8smlqikQ) 44 | * [ChatGPT的一小步,NLP范式转变的一大步](https://mp.weixin.qq.com/s/g_zKgURavorkvS7FoOVg3g) 45 | * [ChatGPT进化的秘密](https://mp.weixin.qq.com/s/dPpO18g3V4xqHUsEBKrXJQ) 46 | * [关于ChatGPT的一切;CUDA入门之矩阵乘;PyTorch 2.0发布|AI系统前沿动态](https://mp.weixin.qq.com/s/lG5mNE8s_sXTScFtPmCBLg) 47 | * [比快更快,开源Stable Diffusion刷新作图速度](https://mp.weixin.qq.com/s/zwZHX_8JibGIoL9OMkKsuw) 48 | -------------------------------------------------------------------------------- /GPT4/Blog/GPT4_Technical_Summary.md: -------------------------------------------------------------------------------- 1 | # GPT4_Technical_Summary 2 | 3 | OpenAI的里程碑之作GPT-4终于发布,这是一个多模态大模型(接受图像和文本输入,生成文本)。主要能力有: 4 | 5 | - GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;可以接受图像作为输入并生成说明文字、分类和分析;能够处理超过 25,000 个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。 6 | 7 | ![Word Limit](D:\github_hzd\ChatGPT-Summary\ChatGPT_VS_GPT4\Word Limit.gif) 8 | 9 | - GPT-4的高级推理能力超越了ChatGPT。 10 | 11 | - 在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。 12 | 13 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWoiaicMBJTmL9OHTudvz33fvSb6AsOicLUQoDyiaYPSQ3Q7ZvBf9fFgoYT399JAIsPfgjL9y880MBZichQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 14 | 15 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWoiaicMBJTmL9OHTudvz33fvS1O9Rib7cb2393vhibkicZqCtJKxZ7fRylCwuFWEYdzsReMenrmr4b2MuQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 16 | 17 | - GPT-4遵循GPT、GPT-2和GPT-3的研究路径,利用更多数据和更多计算来创建越来越复杂和强大的语言模型(数据量和模型参数并未公布)。 18 | 19 | - OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。 20 | - 安全与对齐:引入了更多人类反馈数据进行训练,以改进GPT-4的行为;不断吸取现实世界使用的经验教训进行改进;GPT-4的高级推理和指令遵循能力加快的安全性研究工作。 21 | 22 | OpenAI还开源了Evals框架(https://github.com/openai/evals),以自动评估AI模型性能,允许用户报告模型中的缺点,以帮助其改进。 23 | 24 | OpenAI表示,GPT-4仍然有许多正在努力解决的已知局限性,例如社会偏见、幻觉和对抗性prompt。目前,OpenAI正在ChatGPT Plus上提供GPT-4,并为开发人员提供API以构建应用和服务。值得一提的是,微软的New Bing早就用上了GPT-4。 25 | 26 | **API申请链接:https://openai.com/waitlist/gpt-4-api;** 27 | 28 | **https://openai.com/product/gpt-4;** 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | -------------------------------------------------------------------------------- /.gitignore: -------------------------------------------------------------------------------- 1 | # Byte-compiled / optimized / DLL files 2 | __pycache__/ 3 | *.py[cod] 4 | *$py.class 5 | 6 | # C extensions 7 | *.so 8 | 9 | # Distribution / packaging 10 | .Python 11 | build/ 12 | develop-eggs/ 13 | dist/ 14 | downloads/ 15 | eggs/ 16 | .eggs/ 17 | lib/ 18 | lib64/ 19 | parts/ 20 | sdist/ 21 | var/ 22 | wheels/ 23 | pip-wheel-metadata/ 24 | share/python-wheels/ 25 | *.egg-info/ 26 | .installed.cfg 27 | *.egg 28 | MANIFEST 29 | 30 | # PyInstaller 31 | # Usually these files are written by a python script from a template 32 | # before PyInstaller builds the exe, so as to inject date/other infos into it. 33 | *.manifest 34 | *.spec 35 | 36 | # Installer logs 37 | pip-log.txt 38 | pip-delete-this-directory.txt 39 | 40 | # Unit test / coverage reports 41 | htmlcov/ 42 | .tox/ 43 | .nox/ 44 | .coverage 45 | .coverage.* 46 | .cache 47 | nosetests.xml 48 | coverage.xml 49 | *.cover 50 | *.py,cover 51 | .hypothesis/ 52 | .pytest_cache/ 53 | 54 | # Translations 55 | *.mo 56 | *.pot 57 | 58 | # Django stuff: 59 | *.log 60 | local_settings.py 61 | db.sqlite3 62 | db.sqlite3-journal 63 | 64 | # Flask stuff: 65 | instance/ 66 | .webassets-cache 67 | 68 | # Scrapy stuff: 69 | .scrapy 70 | 71 | # Sphinx documentation 72 | docs/_build/ 73 | 74 | # PyBuilder 75 | target/ 76 | 77 | # Jupyter Notebook 78 | .ipynb_checkpoints 79 | 80 | # IPython 81 | profile_default/ 82 | ipython_config.py 83 | 84 | # pyenv 85 | .python-version 86 | 87 | # pipenv 88 | # According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control. 89 | # However, in case of collaboration, if having platform-specific dependencies or dependencies 90 | # having no cross-platform support, pipenv may install dependencies that don't work, or not 91 | # install all needed dependencies. 92 | #Pipfile.lock 93 | 94 | # PEP 582; used by e.g. github.com/David-OConnor/pyflow 95 | __pypackages__/ 96 | 97 | # Celery stuff 98 | celerybeat-schedule 99 | celerybeat.pid 100 | 101 | # SageMath parsed files 102 | *.sage.py 103 | 104 | # Environments 105 | .env 106 | .venv 107 | env/ 108 | venv/ 109 | ENV/ 110 | env.bak/ 111 | venv.bak/ 112 | 113 | # Spyder project settings 114 | .spyderproject 115 | .spyproject 116 | 117 | # Rope project settings 118 | .ropeproject 119 | 120 | # mkdocs documentation 121 | /site 122 | 123 | # mypy 124 | .mypy_cache/ 125 | .dmypy.json 126 | dmypy.json 127 | 128 | # Pyre type checker 129 | .pyre/ 130 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/机器学习与AI生成创作.md: -------------------------------------------------------------------------------- 1 | # 机器学习与AI生成创作 2 | 3 | 4 | ## 2023-03-06 5 | 6 | - [ChatGPT 火爆,最全 prompt 工程指南登 GitHub 热榜,标星 4.7k!](https://mp.weixin.qq.com/s/T3CvlHNTZU3YH2S009CCzw) 7 | 8 | ## 2023-03-03 9 | 10 | - [2月份100篇!2023年2月diffusion生成扩散模型论文汇总!](https://mp.weixin.qq.com/s/NPgjsD1KE95p2N1yyJs-yQ) 11 | 12 | ## 2023-03-01 13 | 14 | - [ICLR 2023 | 扩散生成模型新方法:极度简化,一步生成](https://mp.weixin.qq.com/s/kKelwV6XqhbmBDhm7lxtjA) 15 | 16 | ## 2023-02-27 17 | 18 | - [值得关注!可控生成!近期diffusion图像生成进展!](https://mp.weixin.qq.com/s/BLg_7X_59oManxsWNp9yWA) 19 | 20 | ## 2023-02-24 21 | 22 | - [生成式AI,ChatGPT和自动驾驶的技术趋势漫谈](https://mp.weixin.qq.com/s/2uMzU7P8arxmAEcH7pOIpg) 23 | 24 | ## 2023-02-23 25 | 26 | - [可控生成!ControlNet 以图文为条件信息,玩法太多,潜力无限!](https://mp.weixin.qq.com/s/zJDhVgPiMc28ZYgxWc1ZAQ) 27 | 28 | - [ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿](https://mp.weixin.qq.com/s/eLXr8wnR_OrCFwPKl7Yvhg) 29 | 30 | ## 2023-02-18 31 | 32 | * [换脸方法大汇总:生成对抗网络GAN、扩散模型等](https://mp.weixin.qq.com/s/PFIWWSbVJZ_LZWMthOUleg) 33 | ## 2023-02-14 34 | * [chatgpt核心相关技术?清华、北大等联合发布TransformRL综述:强化学习中的Transformer!](https://mp.weixin.qq.com/s/NzBLF7nokQuyl-tL7CLWlw) 35 | ## 2023-02-10 36 | * [GALIP:GAN再超扩散模型;质量更高,速度更快,内容更可控的文本到图像生成](https://mp.weixin.qq.com/s/xbKi_pcbYKfawFoBVzVsBA) 37 | ## 2023-02-08 38 | * [扩散模型过拟合?!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」](https://mp.weixin.qq.com/s/JJOfjhM4lumzZTFIDkBHug) 39 | * [ChatGPT一出,程序员也要下岗?!这10大职业可能先丢饭碗](https://mp.weixin.qq.com/s/L9jrp7Cj9ZEwT0-yKiRUXw) 40 | ## 2023-02-03 41 | * [ChatGPT/InstructGPT详解](https://mp.weixin.qq.com/s/12Ts2eAz9qfJCq_v1bTEJA) 42 | ## 2023-02-02 43 | * [一文综述6大公司9类生成式AI模型](https://mp.weixin.qq.com/s/2VS6Rg4vfUrsZ-yoFjYwPw) 44 | * [谷歌大脑深度学习调参(炼丹)指南出炉,Hinton点赞,一天收获1500星](https://mp.weixin.qq.com/s/HLOeKjayJljM9g5I1Ic-Tw) 45 | ## 2023-01-31 46 | * [英伟达StyleGAN再升级!比 Stable Diffusion 快30多倍](https://mp.weixin.qq.com/s/tXhvrDSxCXvEMyU5WTAkTA) 47 | * [Jeff Dean万字总结!图解谷歌2022年AIGC、LLM、CV三大领域成就](https://mp.weixin.qq.com/s/mHY00Y2jhoEDGp8nHx-XAg) 48 | ## 2023-01-28 49 | * [DALL-E发明者受访:我对其两年来产生的影响感到惊讶](https://mp.weixin.qq.com/s/pwJu64oIBKjpkC1XWykzTg) 50 | ## 2023-01-19 51 | * [最新最全!2022年10-12月份200篇GAN/对抗论文汇总](https://mp.weixin.qq.com/s/YBPlTy_5p4T02EohBF6gag) 52 | * [学生作业形同虚设!ChatGPT作弊成风!OpenAI:正在自研审核工具](https://mp.weixin.qq.com/s/-YRjg9vSiDySC1buVno2MQ) 53 | ## 2023-01-17 54 | * [ChatGPT——自然语言处理大结局?](https://mp.weixin.qq.com/s/tmNxUvQQTubQWw6Wsmn9UA) 55 | * [汉字艺术生成!Stable Diffusion 的跨学科应用!](https://mp.weixin.qq.com/s/9KTVvrdiLBCwvDsRoQ8Acg) 56 | ## 2023-01-11 57 | * [MICCAI 2022中的医学扩散模型](https://mp.weixin.qq.com/s/699wjYF3ixjQ2-BLbmknyA) 58 | ## 2023-01-06 59 | * [深入解读 | 高清人像美肤GAN模型,达摩院一键去瑕疵、褶皱](https://mp.weixin.qq.com/s/aTTTGWIm3nARjmLBtjSuAA) 60 | * [推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA](https://mp.weixin.qq.com/s/qAyp-BFUbyrEBaY6NOxK_w) 61 | ## 2023-01-05 62 | * [算力成本骤降,Stable Diffusion2.0迎来更大爆发?](https://mp.weixin.qq.com/s/svq0oL9TNzpdTLTCi8ScdQ) 63 | ## 2023-01-03 64 | * [NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑](https://mp.weixin.qq.com/s/o0hzDgwE8-ECIsa1Bho74g) 65 | ## 2023-01-02 66 | * [Stable Diffusion的入门介绍和使用教程](https://mp.weixin.qq.com/s/8S0KYQlZgg0vzeLxTI9UrA) 67 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/NewBeeNLP.md: -------------------------------------------------------------------------------- 1 | # NewBeeNLP 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | - [李开复亲自带队!不仅是中国版ChatGPT,全球招英才](https://mp.weixin.qq.com/s/aO6bA4eNjYp1s7Fd6rQYbA) 8 | 9 | ## 2023-03-19 10 | 11 | - [真·万字长文:可能是全网最晚的ChatGPT技术总结](https://mp.weixin.qq.com/s/LJoxupaKflL793TCwnpyPg) 12 | 13 | ## 2023-03-17 14 | 15 | - [聊一聊ChatGPT技术国产化尝试](https://mp.weixin.qq.com/s/oTTkdZvM4Otnl9gqdOz3pg) 16 | 17 | ## 2023-03-15 18 | 19 | - [王者登基!GPT-4发布,功能史上最强](https://mp.weixin.qq.com/s/c3rCfnAuHDPThabHPBoKew) 20 | 21 | ## 2023-03-10 22 | 23 | - [ChatGPT 标注指南来了!数据是关键](https://mp.weixin.qq.com/s/7RQWdXeqtjaOx-Jn4KYhaA) 24 | 25 | ## 2023-03-08 26 | 27 | - [一脉相通!聊聊 ChatGPT 发展路线](https://mp.weixin.qq.com/s/4HxRVlTCfclUN4OQwjnQgw) 28 | 29 | ## 2023-03-06 30 | 31 | - [ChatGPT爆火后,NLP技术不存在了?](https://mp.weixin.qq.com/s/kNmOjVunDS-3lYl1zEj7rw) 32 | 33 | ## 2023-03-03 34 | 35 | - [微软亚研院:Language Is Not All You Need](https://mp.weixin.qq.com/s/3-UK0YUBNnmF6C96vEo2yw) 36 | 37 | 38 | ## 2023-03-02 39 | 40 | - [AI高考能得500分?邱锡鹏教授深度解剖ChatGPT(内附报告视频)](https://mp.weixin.qq.com/s/uIa-R1sGZX1mboj_PCHjqw) 41 | 42 | 43 | ## 2023-02-28 44 | 45 | - [罗马是怎么建成的:Towards ChatGPT and Beyond](https://mp.weixin.qq.com/s/9g44iX2FfyClDOVLvCeT-A) 46 | 47 | 48 | ## 2023-02-27 49 | 50 | * [本科生60行代码教你手搓GPT大模型,技术介绍堪比教程](https://mp.weixin.qq.com/s/Ay9BZBPcUiztQwG7rMRkAQ) 51 | ## 2023-02-25 52 | * [五年时间,Transformer宇宙发展成了这样,ChatGPT 只是其中之一](https://mp.weixin.qq.com/s/hDnLJi3OYs32lY5c73o2_w) 53 | ## 2023-02-24 54 | * [通用信息抽取技术UIE产业案例解析,Prompt 范式落地经验分享!](https://mp.weixin.qq.com/s/85KXs-x0z8p0xmMR13ljUg) 55 | ## 2023-02-23 56 | * [学习知识图谱对理解ChatGPT有何作用?](https://mp.weixin.qq.com/s/1lRyoUunA3ITzVztRMgF7Q) 57 | ## 2023-02-22 58 | * [In-Context Learning玩法大全](https://mp.weixin.qq.com/s/sC3Xq1QQmtC8Tz84oRRwcw) 59 | ## 2023-02-21 60 | * [ChatGPT会成为下一代搜索引擎吗](https://mp.weixin.qq.com/s/L0H3TEfIJ7GMQYCukDypPQ) 61 | * [由ChatGPT谈谈下一代多模态模型的雏形](https://mp.weixin.qq.com/s/xmSy4m7NheY8iComv7grxQ) 62 | ## 2023-02-20 63 | * [万字长文解析!复现和使用GPT-3/ChatGPT,你所应该知道的](https://mp.weixin.qq.com/s/uxMrFcPwsXoM-J5HDso6Vg) 64 | * [跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文](https://mp.weixin.qq.com/s/Hr0i2wH3A6G_UMJzQENlPQ) 65 | ## 2023-02-19 66 | * [82页PPT !斯坦福最新ChatGPT: 提示学习, 指导微调和RLHF](https://mp.weixin.qq.com/s/USAiWn-MbVwEcDU1VFZL_w) 67 | ## 2023-02-17 68 | * [Instruction Tuning:无/少样本学习新范式](https://mp.weixin.qq.com/s/Pz0V_xd48QH9sJ84fWQrYQ) 69 | ## 2023-02-16 70 | * [看完ChatGPT的回答,AI大佬们不满了](https://mp.weixin.qq.com/s/woBBNPDDYkbsu-MhbItK0A) 71 | * [多模态版ChatGPT,拿下视觉语言新SOTA, 代码已开源](https://mp.weixin.qq.com/s/a3bdOIHW_QFRPwkEJdCeSQ) 72 | ## 2023-02-14 73 | * [ChatGPT出来后,我们是否真的面临范式转变?](https://mp.weixin.qq.com/s/q-Ng5uSiR-3EW2Lc6rnr8g) 74 | ## 2023-02-13 75 | * [综述:NLP中的 Human in the Loop](https://mp.weixin.qq.com/s/mGZakDtovdambf0ZvUDWSA) 76 | ## 2023-02-07 77 | * [ChatGPT Prompt工程:设计、实践与思考](https://mp.weixin.qq.com/s/a8hjzZ_Rzl6pOU1PRAARJQ) 78 | ## 2023-02-01 79 | * [Fine-tune-CoT:小模型也能做推理,完美逆袭大模型](https://mp.weixin.qq.com/s/1N2zrXv_3-CpIP2-8BQ_sQ) 80 | ## 2023-01-17 81 | * [From zero to ChatGPT:从零开始谈ChatGPT](https://mp.weixin.qq.com/s/Jce3RLgZGuXED9HZzw_XYQ) 82 | ## 2023-01-15 83 | * [ChatGPT会对未来5年的NLP算法从业者带来怎样的冲击?](https://mp.weixin.qq.com/s/MIjbDcTEOWsR1RzYrldk2A) 84 | ## 2023-01-10 85 | * [深入浅出!ChatGPT背后的原理详解](https://mp.weixin.qq.com/s/bG9NoTl15LHlGCsxtzugnA) 86 | ## 2023-01-05 87 | * [达摩院多模态预训练模型的轻量适配技术分享](https://mp.weixin.qq.com/s/3nYtRkM5OTGB3fAOMoM99g) 88 | -------------------------------------------------------------------------------- /AGI/OpenAI发布AGI路线图.md: -------------------------------------------------------------------------------- 1 | # OpenAI发布AGI路线图 2 | 3 | 在 ChatGPT 引爆科技圈之后,人们对于先进技术产生了更多期待,但一直有专家警告 AI 可能造成的危害。我们知道,OpenAI 的使命是确保通用人工智能 —— 比人类更聪明的 AI 系统,能够造福全人类。本周五,这家公司发布了「AGI 路线图」,详细解释了这家前沿研究机构对通用人工智能研究的态度。 4 | 5 | 在路线图中,OpenAI 对新技术的发展有了更加谨慎的态度,这可能意味着以后用户和应用范围会受到更严密的监控和限制。让我们看看 OpenAI 是怎么说的: 6 | 7 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gWicfvcvM6rp9L9PsEvtApe4dBop3KJ2jqCl5ck3gAb08VcgtEjlMwsVI4kWX21ibwTxWB8pDcd2Papw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 8 | 9 | 如果通用人工智能(AGI)最终被成功构建起来,这项技术不仅可以带来更多可能性,推动全球经济发展,也能改变新兴科学知识的发现,会从各种角度帮助人类提升生活水平。 10 | 11 | AGI 有潜力赋予每个人不可思议的新能力。我们可以想象这样一个世界,在其中,所有人都可以获得几乎所有认知任务的帮助,它或许是人类才智和创造力的巨大力量倍增器。 12 | 13 | 但另一方面,正如一些人所担心的,通用人工智能也会带来严重的滥用、严重事故和社会混乱的风险。由于 AGI 的好处如此之大,我们不能认为让社会永远停止其发展是可取的方向,相反,社会和 AGI 的开发者必须要想办法把它做好。 14 | 15 | 与通用人工智能共同生活的未来图景难以预测,当前的 AI 进展可能会遭遇新的挑战,但在 ChatGPT 获得成功的当下,OpenAI 列出了我们最关心的几项原则: 16 | 17 | \1. 我们希望通用人工智能使人类能够在宇宙中实现最大程度的繁荣。我们不希望未来成为一个虚假的乌托邦,但我们希望将技术好的一面最大化,坏的一面最小化,让 AGI 成为人类善意的放大器。 18 | 19 | \2. 我们希望 AGI 的益处、接入和治理能得到广泛和公平的分享。 20 | 21 | \3. 我们要正确应对潜在风险。在面对这些风险时,理论上似乎正确的事情在实践中往往比预期更难以控制。我们必须通过部署功能较弱的技术版本来不断学习和适应,以最大程度地减少「无可挽回」的情况。 22 | 23 | **短期目标** 24 | 25 | OpenAI 认为,若为通用人工智能的发展做准备,有几件事要先做好。 26 | 27 | 首先,随着我们不断构建出更为强大的 AI 系统,我们必然希望快速部署 AGI 并获得在现实世界中操作它们的经验。谨慎管理 AGI 存在的最佳方式应该是逐渐过渡到 AGI 的世界。我们期望强大的 AI 能够加快世界进步的速度,OpenAI 认为最好是逐步适应这一点。 28 | 29 | 渐进的方式让人们、政策制定者和机构能有时间了解正在发生的事情,亲身体验这些系统的好处和缺点,调整我们的经济组织形式,并实施有效监管。渐进的方式还允许社会和 AI 共同进化,并允许人们在风险相对较低的情况下共同弄清楚自身所需。 30 | 31 | OpenAI 目前认为,成功应对 AI 部署挑战的最佳方法是采用快速学习和谨慎迭代的紧密反馈循环。在新技术的冲击下,社会将面临「人工智能系统被允许做什么、如何消除偏见、如何处理工作岗位流失」等重大问题。最佳决策将取决于技术所采用的路径,并且与任何新领域一样,到目前为止,大多数的专家预测都是存在偏差的。这使得在预期外进行规划会非常困难。 32 | 33 | 一般来说,我们认为在世界上更多地使用 AI 会带来好处,并希望推广它(通过将模型放入服务 API 中,将它们开源等等)。OpenAI 相信,开放的访问也将导致更多更好的研究,吸引更多的人贡献新的想法。 34 | 35 | OpenAI 表示,随着其开发的系统越来越接近 AGI,该机构在模型的创建和部署方面都变得越来越谨慎。 36 | 37 | OpenAI 需要权衡部署大模型的利弊。一方面,部署先进的大模型是重要的科技进展;另一方面,部署模型之后,公司和机构也需要考虑如何限制恶意行为者、避免对社会和经济造成不良影响等问题。在这种情况下,OpenAI 表示将围绕持续部署来改进其规划。 38 | 39 | 其次,OpenAI 正在努力创建更加一致和可控的模型。从 GPT-3 的第一个版本到 InstructGPT 和 ChatGPT,这一步步的转变就是 OpenAI 在这个方向上努力的例子。 40 | 41 | 值得注意的是,OpenAI 认为有一点非常重要,就是人类社会需要就如何使用人工智能达成极其广泛的界限,而在这些界限内,个人用户有很大的自由使用权。OpenAI 希望最终世界能够就这些广泛的界限达成一致。 42 | 43 | 随着模型变得更强大,OpenAI 将需要开发新的对齐技术。OpenAI 的短期计划是使用 AI 来帮助人类评估更复杂模型的输出并监控复杂系统,而从长远来看,OpenAI 将会使用 AI 来帮助其提出新的想法以获得更好的对齐技术。 44 | 45 | 重要的是,我们需要在人工智能安全和能力方面共同取得进展,这二者不应该分开谈论。OpenAI 表示其最安全的工作来自于其最有能力的模型。也就是说,提高人工智能的安全性对 AI 研究进步非常重要。 46 | 47 | 第三,OpenAI 希望就三个关键问题展开全球对话:如何治理这些系统,如何公平分配它们产生的收益,以及如何公平共享访问权限。 48 | 49 | 除了这些,OpenAI 还提到在该公司的章程中有一个条款是关于协助其他组织提高安全性,而不是在后期 AGI 开发中与对手竞争。OpenAI 投资规则中对股东可以获得的回报设定了上限,这样研究机构本身就不会被激励去尝试无限制地获取价值,也不会冒险部署具有潜在灾难性危险的东西。 50 | 51 | OpenAI 被一个非营利组织管理,以保证该机构是为人类的利益而运行(并且可以凌驾于任何营利利益之上)。 52 | 53 | OpenAI 认为在发布新系统之前进行独立审查是 AGI 研究非常重要的一步。关于 AGI 工作应何时停止训练、确定模型可以安全发布或从生产使用中撤出模型的公共标准是很重要的。最后,OpenAI 认为世界主要政府应对超过一定规模的机器学习训练保持监管。 54 | 55 | **长远目标** 56 | 57 | OpenAI 相信人类的未来应该由人类自己决定,与公众分享有关进步的信息至关重要。我们应该对所有试图建立 AGI 的努力进行严格审查,并在重大决策上面向公众进行咨询。 58 | 59 | 从某种意义上说,第一个 AGI 将只是人工智能持续发展中的一个小节点,然后从这个节点开始不断衍生出新的进展。AI 的发展可能会在很长一段时间内保持我们在过去十年中看到的进展速度。 60 | 61 | 有一天,世界可能会变得与今天截然不同,但科技的进步也可能带给人类很大的风险。一个「错位的」超级智能 AGI 可能会对世界造成严重的伤害。 62 | 63 | 加速科学发展的人工智能将是一个值得思考的特例,这也许比其他任何事情都更有影响力。有足够能力加速自身进步的 AGI 可能会导致世界发生重大变化。也许 AGI 的发展在初期是比较缓慢的,但 OpenAI 预计给世界带来巨大变化的 AGI 在最后阶段一定会出现。 64 | 65 | 基于上述原因,OpenAI 认为 AGI 领域较慢的启动速度更容易确保安全,并且 AGI 在关键时刻减速可能也很重要。即使技术的进展让我们可以迅速发展 AGI,但减速的重要意义是要给社会足够的时间来适应。 66 | 67 | 成功过渡到一个拥有超级智能的世界可能是人类历史上最重要、最有希望,但也最可怕的项目。这种巨大进展的成功还远未得到保证,但我们已经可以预见的利害关系有望将所有人团结起来。 68 | 69 | 无论如何,那将是一个繁荣到我们还无法完全想象的世界。而 OpenAI 希望为世界贡献一个与这种繁荣相一致的通用人工智能。 70 | 71 | *参考内容:* 72 | 73 | *https://openai.com/blog/planning-for-agi-and-beyond/* -------------------------------------------------------------------------------- /ChatGPT_VS_GPT4/GPT4_VS_ChatGPT(from_nytimes).md: -------------------------------------------------------------------------------- 1 | # GPT4 VS ChatGPT(from nytimes ) 2 | 3 | 正如文章官网博文:https://openai.com/research/gpt-4所述,GPT4仍有很多不足之处,还不及人类水平。纽约时报报道了一些人体验GPT4的效果和一些评价: 4 | 5 | **Cade Metz 要求专家使用 GPT-4,Keith Collins 将人工智能生成的答案可视化。** 6 | 7 | 四个月前吸引科技行业的 AI 聊天机器人所采用的技术的新版本在其前身的基础上进行了改进。它是一系列学科的专家,其医疗建议甚至令医生惊叹不已。它可以描述图像,并且接近于讲几乎好笑的笑话。但传闻已久的新人工智能系统 GPT-4 仍然存在一些怪癖,并且会犯一些同样的习惯性错误,这些错误在引入聊天机器人 ChatGPT 时让研究人员感到困惑。虽然它是一个非常好的应试者,但这个系统——来自旧金山初创公司 OpenAI——还没有达到与人类智能相匹配的水平。下面是GPT-4的简要指南: 8 | 9 | ## **已经学会了更精确的方法** 10 | 11 | 人工智能专家兼风险投资公司Page One Ventures的合伙人 Chris Nicholson在最近的一个下午使用 GPT-4 时,他告诉机器人他是一个说英语但不懂西班牙语的机器人。他要求提供一份可以教他基础知识的教学大纲,而机器人提供了一个详细且组织良好的教学大纲。它甚至提供了广泛的学习和记忆西班牙语单词的技巧(尽管并非所有建议都中肯)。![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAR5kyONRELa6fuEMlK5ccqPhwoKARr3UryMK0AlOPP7xlpgK6OyIEuQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 12 | 13 | Nicholson 先生向以前版本的 ChatGPT 寻求类似的帮助,该版本依赖于 GPT-3.5。它也提供了教学大纲,但它的建议更笼统且帮助不大。 14 | 15 | “它已经突破了精确的障碍,”尼科尔森先生说。“它包含了更多的事实,而且它们往往是正确的。” 16 | 17 | ## **提高了准确性** 18 | 19 | 当 AI 研究员兼教授 Oren Etzioni 首次尝试这款新机器人时,他问了一个直截了当的问题:“Oren Etzioni 和 Eli Etzioni 之间有什么关系?” 机器人正确响应。 20 | 21 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAnVMVe8LibZtd9uIGnaibxD5hFQ87t63sIMdegib9FeFtFQhIOQvsXOItw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 22 | 23 | 之前版本的 ChatGPT 对那个问题的回答总是错误的。做对了表明新的聊天机器人拥有更广泛的知识。但它仍然会出错。机器人继续说道:“Oren Etzioni 是一名计算机科学家,也是艾伦人工智能研究所 (AI2) 的首席执行官,而 Eli Etzioni 是一名企业家。” 其中大部分是准确的,但这个机器人——其培训已于 8 月完成——并没有意识到 Etzioni 博士最近辞去了艾伦研究所的首席执行官一职。 24 | 25 | ## **可以用令人印象深刻的细节描述图像。** 26 | 27 | GPT-4 具有响应图像和文本的新功能。OpenAI 总裁兼联合创始人 Greg Brockman 演示了该系统如何细致地描述来自哈勃太空望远镜的图像。描述继续段落。它还可以回答有关图像的问题。如果给出冰箱内部的照片,它可以建议用手头的东西做几顿饭。![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAKwvClMvuXJMm4EwMWgJ9DBWAZrXbXVUwRZ8MzgTbibxiaibesquacT9pA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 28 | 29 | OpenAI 尚未向公众发布这部分技术,但一家名为 Be My Eyes 的公司已经在使用 GPT-4 构建服务,可以更详细地了解在互联网上遇到的图像或在现实世界中拍摄的图像. 30 | 31 | ## **增加了严肃的专业知识** 32 | 33 | 最近的一个晚上,北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家 Anil Gehi 向聊天机器人描述了他一天前看过的一位患者的病史,包括患者术后出现的并发症被送往医院。描述中包含几个外行人无法识别的医学术语。当 Gehi 医生问他应该如何治疗病人时,聊天机器人给了他完美的答案。“这正是我们对待病人的方式,”他说。当他尝试其他场景时,机器人给出了同样令人印象深刻的答案。这些知识不太可能在每次使用机器人时都显示出来。它仍然需要像盖希博士这样的专家来判断它的反应并执行医疗程序。但它可以在许多领域展示这种专业知识,从计算机编程到会计。 34 | 35 | ## **可以让编辑们为自己的钱而奔波** 36 | 37 | 当提供来自《纽约时报》的文章时,新的聊天机器人几乎每次都能对故事进行精确和准确的总结。如果您在摘要中添加一个随机句子并询问机器人摘要是否不准确,它会指向添加的句子。![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicA3ZibPRicicTmT8GmCUYOZIHLS6kc87icq8t4iaztylv74dR7XDs3T9aXA2w/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 38 | 39 | Etzioni 博士说这是一项了不起的技能。“要进行高质量的总结和比较,就必须对文本有一定程度的理解,并有能力表达这种理解,”他说。“那是一种高级形式的情报。” 40 | 41 | ## **正在培养一种幽默感** 42 | 43 | Etzioni 博士要求新机器人提供“关于歌手麦当娜的新颖笑话”。这个回答让他印象深刻。这也让他笑了。如果您知道麦当娜的热门歌曲,它可能也会给您留下深刻印象。 44 | 45 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAQuxrickQyKGa6GBYmJ83s2EbNKuvA8WQroL88ZCJDIepGhv2RfmokoQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 46 | 47 | 除了公式化的“爸爸笑话”之外,新的机器人仍然很难写出任何东西。但它比它的前身稍微有趣一点。 48 | 49 | ## **可以推理** 50 | 51 | Etzioni 博士给了新机器人一个谜题。![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAertEVZouUxg8DePjsfqGJ93TKzhoZjpehIAcPm8N8w32PicCdUWPnGQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 52 | 53 | 系统似乎做出了适当的回应。但是答案没有考虑门口的高度,这也可能会阻止坦克或汽车通过。OpenAI 的首席执行官 Sam Altman 说,新的机器人可以推理“一点点”。但它的推理能力在许多情况下都会崩溃。以前版本的 ChatGPT 更好地处理了这个问题,因为它认识到高度和宽度很重要。 54 | 55 | ## **可以通过标准化测试** 56 | 57 | OpenAI 表示,新系统可以在 41 个州和地区的律师统一考试中获得前 10% 左右的学生分数。根据该公司的测试,它还可以在 SAT 考试中获得 1,300 分(满分 1,600 分),在生物、微积分、宏观经济学、心理学、统计学和历史等高级先修高中考试中获得 5 分(满分 5 分)。该技术的早期版本未能通过统一律师资格考试,并且在大多数大学先修考试中的得分也没有那么高。在最近的一个下午,为了展示其测试技能,布罗克曼先生向新机器人提供了一段关于一位经营柴油卡车维修业务的人的段落长的律师考试问题。答案是正确的,但充满了法律术语。因此,布罗克曼先生要求机器人用通俗易懂的英语向外行解释答案。它也这样做了。 58 | 59 | ## **不擅长讨论未来** 60 | 61 | 尽管新机器人似乎可以对已经发生的事情进行推理,但当被要求对未来做出假设时,它就不那么熟练了。它似乎借鉴了其他人所说的话,而不是创造新的猜测。当 Etzioni 博士向新机器人提问时,“未来十年 NLP 研究中需要解决的重要问题是什么?” - 指的是推动 ChatGPT 等系统发展的“自然语言处理”研究 - 它无法提出全新的想法。 62 | 63 | ## 它仍然在产生“幻觉” 64 | 65 | 新的机器人仍在编造东西。这个问题被称为“幻觉”,困扰着所有领先的聊天机器人。由于系统不了解什么是真什么不是,它们可能会生成完全错误的文本。当被要求提供描述最新癌症研究的网站地址时,它有时会生成不存在的互联网地址。 -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/算法邦.md: -------------------------------------------------------------------------------- 1 | # 算法邦 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | - [当GPT-4进入北京市2022高考考场能有什么表现?](https://mp.weixin.qq.com/s/N_j01KSuEKuVwCCD69G92g) 8 | 9 | ## 2023-03-19 10 | 11 | - [ChatGPT如何成为优秀的翻译质量评估器?——错误分析与思维链结合的Prompt设计|AI新青年讲座](https://mp.weixin.qq.com/s/G76WTvNdtcc0nBAP8AsSnQ) 12 | 13 | - [张俊林:GPT-4 模型会开创哪些新的研究方向?](https://mp.weixin.qq.com/s/W8LXDMJANiLUVP6F2U5V3A) 14 | 15 | ## 2023-03-18 16 | 17 | - [文心一言 VS GPT-4:20道问答PK](https://mp.weixin.qq.com/s/l1pTPlohMmiYEMc4x6QKhw) 18 | 19 | ## 2023-03-17 20 | 21 | - [万字长文教你全面了解 GPT-4!](https://mp.weixin.qq.com/s/_HbOJ4SvHk7pUSHVn0rUhA) 22 | 23 | ## 2023-03-16 24 | 25 | - [被GPT-4炸懵了?一文解读GPT-4模型特征与训练信息](https://mp.weixin.qq.com/s/1LbktyKDX1obxS8RnRFEHw) 26 | 27 | ## 2023-03-15 28 | 29 | - [盘点ChatGPT应用7大方向,谁将诞生尤里卡时刻](https://mp.weixin.qq.com/s/b4u6Q1WmZLmici4mGoZXMQ) 30 | 31 | ## 2023-03-14 32 | 33 | - [ChatGPT之后,下一代大型语言模型在哪里?](https://mp.weixin.qq.com/s/8Bqr_F2M5BiyxNrZ18JLBA) 34 | 35 | ## 2023-03-13 36 | 37 | - [王炸!微软MSRA开发出视觉版ChatGPT,聊天即可完成AI作画和编辑](https://mp.weixin.qq.com/s/cqht9WBL23lrdQtsK4mWpw) 38 | 39 | ## 2023-03-10 40 | 41 | - [ChatGPT思考:探索智能的极限](https://mp.weixin.qq.com/s/fR7DIhMdOCHSRGmNShQiHA) 42 | 43 | ## 2023-03-09 44 | 45 | - [AI 应用大爆发!一文学会 ChatGPT 官方 API](https://mp.weixin.qq.com/s/mtiUuALbtDbvSd32z6uw5g) 46 | 47 | ## 2023-03-08 48 | 49 | - [追赶ChatGPT的难点与平替](https://mp.weixin.qq.com/s/4qvCe_C0JNFG8g-WTvtlbA) 50 | 51 | ## 2023-03-06 52 | 53 | - [没有这些,别妄谈做ChatGPT了](https://mp.weixin.qq.com/s/BwFUYFbkvAdDRE1Zqt_Qcg) 54 | 55 | ## 2023-03-05 56 | 57 | - [ChatGPT的前生: Prompting思想](https://mp.weixin.qq.com/s/ppbEu6jvTCTQSgCxjSMX6Q) 58 | 59 | ## 2023-03-04 60 | 61 | - [聚焦中国版ChatGPT狂飙!GTIC 2023中国AIGC创新峰会定档3月24日,世界顶级AI科学家领衔](https://mp.weixin.qq.com/s/nLEeu1suuXn0XWnMh55ylg) 62 | 63 | - [用1/10参数规模打败GPT-3!Meta 开源大模型LLaMA深度解读](https://mp.weixin.qq.com/s/12dXrUXy-oQD1VMGQvwK4w) 64 | 65 | ## 2023-03-03 66 | 67 | - [终于,我们把最新的ChatGPT技术资料/论文整理全了【限时领取】](https://mp.weixin.qq.com/s/_mJUF4nXp6GxMV8yWRPOVw) 68 | 69 | ## 2023-03-02 70 | 71 | - [重大!ChatGPT官方API发布:输出100万词只要2.7美金,成本砍掉90%](https://mp.weixin.qq.com/s/jEgnvFnb2jAEcE40rPZZ4w) 72 | 73 | 74 | ## 2023-03-01 75 | 76 | - [醒醒!先别看ChatGPT,AI绘画突破性进展!](https://mp.weixin.qq.com/s/efpsEVfeZ9AmJSdHrDsUdQ) 77 | 78 | 79 | ## 2023-02-28 80 | 81 | - [ChatGPT的前世今生:「文本生成+指令」新范式开启,传统NLP技术不会消亡!](https://mp.weixin.qq.com/s/EHINct2MPrL8W2IJz5V6-g) 82 | 83 | 84 | ## 2023-02-27 85 | 86 | - [哈工大车万翔教授:ChatGPT时代,NLPer 的危与机](https://mp.weixin.qq.com/s/Tru209zfVLbCqv2RdTfE-w) 87 | 88 | 89 | ## 2023-02-26 90 | 91 | * [ChatGPT一小步,NLP范式转变一大步](https://mp.weixin.qq.com/s/-5YcZ9Hyht5mASS2Eo9rLA) 92 | ## 2023-02-25 93 | * [百亿级大语言模型能力的背后——“上下文学习”](https://mp.weixin.qq.com/s/bTHD0BBMCoXkWILIXAT1rg) 94 | 95 | 96 | * [解读 ChatGPT 背后的技术重点:RLHF、IFT、CoT、红蓝对抗](https://mp.weixin.qq.com/s/HF_CKEL7oNghBe-E8bwukw) 97 | * [ChatGPT背后的经济账](https://mp.weixin.qq.com/s/rZCzutiAD8NDNZbHKPZVQg) 98 | * [ChatGPT破亿活跃量的背后——下一代分布式计算框架](https://mp.weixin.qq.com/s/XuRzjmQvuwQpNum9VpjzDQ) 99 | * [ChatGPT背后的算法——RLHF](https://mp.weixin.qq.com/s/qTawhktMJaV64bbxPgUj0g) 100 | * [作为普通NLP科研人员对ChatGPT的一些思考](https://mp.weixin.qq.com/s/UeroCsHS6cbvyqzXfwtQKQ) 101 | * [万字长文:AI产品经理视角的ChatGPT全解析](https://mp.weixin.qq.com/s/sGElwGKgEFU8j6qt7dMB-Q) 102 | * [从爆火的chatGPT讲起: 自然语言生成式AI的前世今生](https://mp.weixin.qq.com/s/q1dgUI-AvTu81e0aFSdLJQ) 103 | * [OpenAI是如何胜过谷歌的?ChatGPT发展简史](https://mp.weixin.qq.com/s/HY8Sl215CxzL85HsSsXu4Q) 104 | * [ChatGPT出来后,我们是否真的面临范式转变?](https://mp.weixin.qq.com/s/Ozw2t7brub3aaJKzEu4UEA) 105 | * [万字拆解!追溯ChatGPT各项能力的起源](https://mp.weixin.qq.com/s/ywRQlSGbneimuGUlIylKpw) 106 | * [35张图,直观理解Stable Diffusion](https://mp.weixin.qq.com/s/wtYCkwhrPflfpirQ_uCa-g) 107 | * [一文弄懂 AI 绘图背后的核心技术 Diffusion Model](https://mp.weixin.qq.com/s/Oa0ppFovPIBK5I-DKz01VQ) 108 | * [ChatGPT会成为下一代搜索引擎吗?](https://mp.weixin.qq.com/s/AhcwXuPbDH28iYnhhmj4sg) 109 | * [2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急](https://mp.weixin.qq.com/s/KXF4dVxuCa3aDSH3bke8jA) 110 | * [只有我一个人对ChatGPT感到蕉绿吗?](https://mp.weixin.qq.com/s/cgnt22sS8iJBE-jIdoU-mQ) 111 | * [3D Diffusion模型来了!OpenAI出品,已开源](https://mp.weixin.qq.com/s/l_rf1J-7C9feTfyEa5oF9Q) 112 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/DataFun.md: -------------------------------------------------------------------------------- 1 | # DataFun 2 | 3 | 4 | 5 | ## 2023-03-19 6 | 7 | - [ChatGPT真的可以取代知识图谱问答吗?](https://mp.weixin.qq.com/s/cvBVgxCrreic6U6CU-YB-A) 8 | 9 | ## 2023-03-15 10 | 11 | - [GPT-4来了,如何申请体验?](https://mp.weixin.qq.com/s/opohhIbcoLkbPnt9Z3zH9g) 12 | 13 | ## 2023-03-04 14 | 15 | - [AliceMind大规模预训练实践及AIGC在ModelScope中的应用](https://mp.weixin.qq.com/s/u1Nzx4JQUgBwt2uDzBM9vQ) 16 | 17 | ## 2023-03-02 18 | 19 | - [1块钱3.5万多汉字:OpenAI开放ChatGPT API成本下降10倍](https://mp.weixin.qq.com/s/7kcDtDC3tCarD5VcEml5Gg) 20 | 21 | ## 2023-03-01 22 | 23 | - [PPT限时下载|GPT模型推理加速实践](https://mp.weixin.qq.com/s/EHI8G4EdDPO36wHOyln-Bw) 24 | 25 | ## 2023-02-27 26 | 27 | - [从 GPT 到 ChatGPT 的演进与应用思考](https://mp.weixin.qq.com/s/3Pr82xKpZ7mAWQcxPPB1xA) 28 | 29 | ## 2023-02-25 30 | 31 | - [ChatGPT成功背后的技术原因及其对生命科学领域的启发](https://mp.weixin.qq.com/s/snXaWHr0VYFNYirSHRAvRw) 32 | 33 | ## 2023-02-21 34 | * [AI高考能得500分?邱锡鹏教授做客人大高瓴解剖ChatGPT](https://mp.weixin.qq.com/s/-XRC9RHHJxx6v-GfK99gXg) 35 | ## 2023-02-20 36 | * [年薪百万,ChatGPT引爆抢人大战](https://mp.weixin.qq.com/s/h6GzgyuNIPaplw7mhedFEg) 37 | * [ChatGPT技术国产化尝试](https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug) 38 | ## 2023-02-19 39 | * [腾讯智能写作助手“文涌”(Effidit)关键技术揭秘](https://mp.weixin.qq.com/s/MEmE_hvzGFRNg05yf-UWXA) 40 | * [一文理解“上下文学习”----大语言模型突现能力](https://mp.weixin.qq.com/s/0kchPu20nwCKCXk4PZBkOg) 41 | ## 2023-02-18 42 | * [ChatGPT,和聪明地设计 Infra](https://mp.weixin.qq.com/s/gzCb8NAG5fS0ZLP9r9yudg) 43 | ## 2023-02-17 44 | * [Diffusion和GPT模型推理加速方案解读](https://mp.weixin.qq.com/s/mxXr3k8lvenRfzIuOYlwXA) 45 | ## 2023-02-16 46 | * [ChatGPT爆火带来思考:医学界或将迎来与AI融合的奇点?](https://mp.weixin.qq.com/s/x8ppg6GVCAeLNpv5uJ7B7g) 47 | * [Transformer详解(附代码)](https://mp.weixin.qq.com/s/tbFNGOplRSx7efGcpf28xw) 48 | ## 2023-02-15 49 | * [ChatGPT掀AI热潮,这些芯片厂商将“狂飙”](https://mp.weixin.qq.com/s/QUIQX5dlIpL10vxAiqaSIw) 50 | * [下一代大型语言模型的三个新兴领域](https://mp.weixin.qq.com/s/MwLAMMZ9utpMJC02h27G6A) 51 | ## 2023-02-14 52 | * [数字水印——一波“反ChatGPT”的技术开始冒头](https://mp.weixin.qq.com/s/v3pSUWK14_BgtZVObGFgXg) 53 | ## 2023-02-13 54 | * [一文看遍各行业对ChatGPT的专业评估](https://mp.weixin.qq.com/s/2JryWW33j9udOpi3dK5X9g) 55 | * [ChatGPT 存在的问题及可行的优化技术路线](https://mp.weixin.qq.com/s/ONEmQf8kunTpWPM_hC9z2w) 56 | ## 2023-02-12 57 | * [对标ChatGPT,新聊天机器人Claude来了](https://mp.weixin.qq.com/s/3UPquqSfKabTBamj44uEWw) 58 | * [如何成为模型开源社区ModelScope的贡献者?](https://mp.weixin.qq.com/s/hx3166Bi0YiRcsdX3-LFCg) 59 | ## 2023-02-10 60 | * [吴恩达: ChatGPT大型语言模型获得成功的背后原因探析](https://mp.weixin.qq.com/s/-om-HBysAIF2w9evnyO43g) 61 | * [ChatGPT在投资研究领域的应用初探及原理分析](https://mp.weixin.qq.com/s/LFPeSLeEOTb1-2YJBXclbQ) 62 | ## 2023-02-09 63 | * [知乎能搭上 ChatGPT 这班车吗?](https://mp.weixin.qq.com/s/BaV5tdfxGkdzgFW81WKY1w) 64 | ## 2023-02-08 65 | * [ChatGPT技术架构详解](https://mp.weixin.qq.com/s/iG3CAWY5yq0NQAezWkA8Fg) 66 | * [PPT限时下载|ChatGPT技术、国产化尝试和开源模型](https://mp.weixin.qq.com/s/IwjSc20tI1SzByYyupBeCA) 67 | * [微软首款ChatGPT搜索来了!](https://mp.weixin.qq.com/s/gO17slDXgnykT1GJrVj3kw) 68 | ## 2023-02-07 69 | * [如何评价 OpenAI 的超级对话模型 ChatGPT ?](https://mp.weixin.qq.com/s/7lgefkXfa17JOuyo82k9TA) 70 | * [国产版 ChatGPT 来了,百度确认将推出文心一言,计划三月面世!](https://mp.weixin.qq.com/s/5ukp7djcC5uoO9jytEzCPA) 71 | ## 2023-02-06 72 | * [ChatGPT能取代哪些职业?](https://mp.weixin.qq.com/s/3j-yLnkU6Wd9-NRVokSF1w) 73 | ## 2023-02-05 74 | * [《时代》专访ChatGPT:我还有很多局限,但人类应准备好应对AI](https://mp.weixin.qq.com/s/F_0yxAaJbSbjW7cu7ZyIhw) 75 | ## 2023-02-04 76 | * [腾讯版ChatGPT将至?](https://mp.weixin.qq.com/s/Q0ySmM-Mvt7S9ET75GzfJQ) 77 | ## 2023-02-03 78 | * [AIGC元年,全球巨头进入人工智能决赛圈?](https://mp.weixin.qq.com/s/wuDDoRanuC3GnMBPZ7p_lg) 79 | ## 2023-02-01 80 | * [「撩妹神器」不灵了!OpenAI重磅发布官方「ChatGPT检测器」](https://mp.weixin.qq.com/s/EcZE7TgHspf22rPRWhAybw) 81 | ## 2023-01-31 82 | * [以 ChatGPT 为代表的「大模型」会是多大的技术革命?](https://mp.weixin.qq.com/s/f0P_rCIMVuR_RaI847IL_Q) 83 | ## 2023-01-16 84 | * [ChatGPT国产化尝试](https://mp.weixin.qq.com/s/4RZMXZM7QWZwBEngosA2QQ) 85 | ## 2023-01-15 86 | * [AIGC用于智能写作的技术综述](https://mp.weixin.qq.com/s/jaMwK0sKzecdwPNWcUK96w) 87 | ## 2023-01-14 88 | * [ChatGPT和Transformer经典论文分享](https://mp.weixin.qq.com/s/nOA6y3p4n3jIVQA_IX-RRg) 89 | ## 2023-01-12 90 | * [「ChatGPT」全球爆火,百度们在做什么?](https://mp.weixin.qq.com/s/hUAuwZLriUYl9aSDSdN1Bw) 91 | ## 2023-01-10 92 | * [张俊林:由ChatGPT反思大语言模型(LLM)的技术精要](https://mp.weixin.qq.com/s/eMrv15yOO0oYQ-o-wiuSyw) 93 | 94 | -------------------------------------------------------------------------------- /AGI/Google_OpenXLA.md: -------------------------------------------------------------------------------- 1 | # Google OpenXLA 2 | 3 | 4 | 5 | 在去年 10 月的 Google Cloud Next 2022 活动中,OpenXLA 项目正式浮出水面,谷歌与包括阿里巴巴、AMD、Arm、亚马逊、英特尔、英伟达等科技公司推动的开源 AI 框架合作,致力于汇集不同机器学习框架,让机器学习开发人员获得能主动选择框架、硬件的能力。 6 | 7 | 本周三,谷歌宣布 OpenXLA 项目正式开源。 8 | 9 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9XnWoRbEQaayhrJicumwd46pI4icrvOeqBNrwmWfMpIxQZLsb9QYUxLUXqDf8GCgzE5QhhT20pUib4A/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 10 | 11 | 项目链接:https://github.com/openxla/xla 12 | 13 | 通过创建与多种不同机器学习框架、硬件平台共同工作的统一机器学习编译器,OpenXLA 可以加速机器学习应用的交付并提供更大的代码可移植性。对于 AI 研究和应用来说,这是一个意义重大的项目,Jeff Dean 也在社交网络上进行了宣传。 14 | 15 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gWicQprCK8NjAfWYMCVWsKqiagJxyGjDxvkr94NFlATYCxYsV4qIIh9EPU4GV2CFj73T4hqwjjcAb7Nw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 16 | 17 | 如今,机器学习开发和部署受到碎片化的基础设施的影响,这些基础设施可能因框架、硬件和用例而异。这种相互隔绝限制了开发人员的工作速度,并对模型的可移植性、效率和生产化造成了障碍。 18 | 19 | 3 月 8 日,谷歌等机构通过 OpenXLA 项目(其中包括 XLA、StableHLO 和 IREE 存储库)的开放,朝着消除这些障碍迈出了重要一步。 20 | 21 | OpenXLA 是由 AI / 机器学习行业领导者共同开发的开源 ML 编译器生态系统,贡献者包括阿里巴巴、AWS、AMD、苹果、Arm、Cerebras、谷歌、Graphcore、Hugging Face、英特尔、Meta 和英伟达。它使得开发人员能够编译和优化来自所有领先机器学习框架的模型,以便在各种硬件上进行高效训练和服务。使用 OpenXLA 的开发人员可以观察到训练时间、吞吐量、服务延迟以及最终发布和计算成本方面的明显提升。 22 | 23 | **机器学习技术设施面临的挑战** 24 | 25 | 随着 AI 技术进入实用阶段,许多行业的开发团队都在使用机器学习来应对现实世界的挑战,例如进行疾病的预测和预防、个性化学习体验和黑洞物理学探索。 26 | 27 | 随着模型参数数量呈指数级增长,深度学习模型所需的计算量每六个月翻一番,开发人员正在寻求基础架构的最大性能和利用率。大量团队正在利用多型号种类的硬件,从数据中心中的节能机器学习专用 ASIC 到可以提供更快响应速度的 AI 边缘处理器。相应的,为了提高效率,这些硬件设备使用定制化的独特算法和软件库。 28 | 29 | 但另一方面,如果没有通用的编译器将不同硬件设备桥接到当今使用的多种框架(例如 TensorFlow、PyTorch)上,人们就需要付出大量努力才能有效地运行机器学习。在实际工作中,开发人员必须手动优化每个硬件目标的模型操作。这意味着使用定制软件库或编写特定于设备的代码需要领域专业知识。 30 | 31 | 这是一个矛盾的结果,为了提高效率使用专用技术,结果却是跨框架和硬件的孤立、不可概括的路径导致维护成本高,进而导致供应商锁定,减缓了机器学习开发的进度。 32 | 33 | **解决方法和目标** 34 | 35 | OpenXLA 项目提供了最先进的 ML 编译器,可以在 ML 基础设施的复杂性中进行扩展。它的核心支柱是性能、可扩展性、可移植性、灵活性和易用性。借助 OpenXLA,我们渴望通过加速人工智能的开发和交付来实现 AI 在现实世界中的更大潜力。 36 | 37 | OpenXLA 的目标在于: 38 | 39 | - 通过适用于任何框架,接入专用设备后端和优化的统一编译器 API,使开发人员可以轻松地在他们的首选框架中针对各种硬件编译和优化任何模型。 40 | - 为当前和新兴模型提供行业领先的性能,也可扩展至多个主机和加速器满足边缘部署的限制,并推广到未来的新型模型架构上。 41 | - 构建一个分层和可扩展的机器学习编译器平台,为开发人员提供基于 MLIR 的组件,这些组件可针对其独特的用例进行重新配置,用于硬件定制化编译流程。 42 | 43 | **AI/ML 领导者社区** 44 | 45 | 我们今天在机器学习基础架构中面临的挑战是巨大的,没有任何一个组织可以单独有效地解决这些挑战。OpenXLA 社区汇集了在 AI 堆栈的不同级别(从框架到编译器、runtime 和芯片)上运行的开发人员和行业领导者,因此非常适合解决我们在 ML 领域看到的碎片化问题。 46 | 47 | 作为一个开源项目,OpenXLA 遵循以下原则: 48 | 49 | - 平等地位:个人无论从属关系如何,都平等地做出贡献。技术领导者是那些贡献最多时间和精力的人。 50 | - 尊重文化:所有成员都应维护项目价值观和行为准则,无论他们在社区中的职位如何。 51 | - 可扩展、高效的治理:小团队做出基于共识的决策,具有清晰但很少使用的升级路径。 52 | - 透明度:所有决定和理由都应该对公众清晰可见。 53 | 54 | **OpenXLA 生态系统:性能、规模和可移植能力** 55 | 56 | OpenXLA 通过模块化工具链消除了机器学习开发人员的障碍,它通过通用编译器接口得到所有领先框架的支持,利用可移植的标准化模型表示,并提供具有强大的目标向和特定硬件优化的特定领域编译器。该工具链包括 XLA、StableHLO 和 IREE,所有这些工具都利用 MLIR:一种编译器基础架构,使机器学习模型能够在硬件上一致地表示、优化和执行。 57 | 58 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9XnWoRbEQaayhrJicumwd46dudWbiaHqWkxKdVHzQ6y7icUa1KD3OicBevAYXSnsQibXia4M9gtztGWCiag/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 59 | 60 | **OpenXLA 主要亮点** 61 | 62 | **机器学习用例的范围** 63 | 64 | OpenXLA 当前的使用涵盖了 ML 用例的范围,包括在阿里云上对 DeepMind 的 AlphaFold、GPT2 和 Swin Transformer 等模型进行全面训练,以及在 Amazon.com 上进行多模态 LLM 训练。Waymo 等客户利用了 OpenXLA 进行车载实时推理。此外,OpenXLA 还用于优化配备 AMD RDNA™ 3 的本地机器上的 Stable Diffusion 服务。 65 | 66 | **最佳性能,开箱即用** 67 | 68 | OpenXLA 使开发人员无需编写特定于设备的代码,即可轻松加快模型性能。它具有整体模型优化功能,包括简化代数表达式、优化内存数据布局以及改进调度以减少峰值内存使用和通信开销。高级算子融合和内核生成有助于提高设备利用率并降低内存带宽要求。 69 | 70 | **轻松扩展工作负载** 71 | 72 | 开发高效的并行化算法非常耗时并且需要专业知识。借助 GSPMD 等功能,开发人员只需注释关键张量的一个子集,然后编译器就可以使用这些子集自动生成并行计算。这消除了跨多个硬件主机和加速器对模型进行分区和高效并行化所需的大量工作。 73 | 74 | **便携性和可选性** 75 | 76 | OpenXLA 为多种硬件设备提供开箱即用的支持,包括 AMD 和 NVIDIA GPU、x86 CPU 和 Arm 架构以及 ML 加速器,如 Google TPU、AWS Trainium 和 Inferentia、Graphcore IPU、Cerebras Wafer-Scale Engine 等等。OpenXLA 还通过 StableHLO 支持 TensorFlow、PyTorch 和 JAX,StableHLO 是一个用作 OpenXLA 输入格式的可移植层。 77 | 78 | **灵活性** 79 | 80 | OpenXLA 为用户提供了手动调整模型热点的灵活性。自定义调用等扩展机制使用户能够用 CUDA、HIP、SYCL、Triton 和其他内核语言编写深度学习原语,从而能够充分利用硬件特性。 81 | 82 | **StableHLO** 83 | 84 | StableHLO 是 ML 框架和 ML 编译器之间的一个可移植层,是一个支持动态、量化和稀疏性的高级运算(HLO)的运算集。此外,它可以被序列化为 MLIR 字节码以提供兼容性保证。所有主要的 ML 框架(JAX、PyTorch、TensorFlow)都可以产生 StableHLO。2023 年,谷歌计划与 PyTorch 团队紧密合作,实现与 PyTorch 2.0 版本的整合。 85 | 86 | **参考文献**: 87 | 88 | [1] https://opensource.googleblog.com/2023/03/openxla-is-ready-to-accelerate-and-simplify-ml-development.html?m=1 89 | 90 | [2] https://venturebeat.com/ai/google-reveals-whats-next-for-cloud-ai/ 91 | 92 | -------------------------------------------------------------------------------- /ChatGPT/Blog/ChatGPT_Technology/ChatGPT_Parameter_is_not_175B.md: -------------------------------------------------------------------------------- 1 | ChatGPT Parameter is not 175B 2 | 3 | **原文链接**:https://orenleung.super.site/is-chatgpt-175-billion-parameters-technical-analysis 4 | 5 | > OpenAI 推出的 ChatGPT 到底是不是 1750 亿参数的等价大模型呢?这篇文章或许能带给你答案。 6 | 7 | ChatGPT 的火热持续到了今天,围绕它的爆点新闻和技术解读不断涌现。关于其参数量,有一种普遍的假设认为,ChatGPT 的参数量与 GPT-3 论文中介绍的 1750 亿参数模型相同。但是,深耕于大语言模型领域工作的人很清楚这不是真的。通过对 A100 GPU 的内存带宽分析,就会发现 ChatGPT API 的实际推理速度要比 1750 亿 Dense equivalent 模型的最大理论推理速度快很多。 8 | 9 | 本文将使用反证法来证明并支持上面的论点,只需要使用大学里学到的一些理论知识。另外需要注意,还存在相反的问题,即有人声称 ChatGPT 只有 X 亿个参数(X 远远低于 1750 )。但是,这些说法无法得到验证,因为说这些话的人通常是道听途说。 10 | 11 | 接下来是详细的论证过程。 12 | 13 | **反证法** 14 | 15 | 先假设 ChatGPT 模型有 1750 亿个参数,通常用 INT8 格式来存储 LLM 权重,以便进行更低延迟的推理、更高的吞吐量和更低的内存需求(比用 float16 格式来存储要少两倍的内存)。每个 INT8 参数需要 1 个字节进行存储。简单的计算就知道,模型需要 175GB 的存储空间。 16 | 17 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9LmGUsXS5PpHNje4sW1GibSzP1xzMNGP4s3tL0gqLcB6XKS5TqZVPf1mX99jZsth5znbgQHPzcjMQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)*图片出自 INT8 SmoothQuant 论文,地址:https://arxiv.org/abs/2211.10438* 18 | 19 | 就推理而言,GPT 风格的语言模型在每次前向传递时都是「自回归」的,它预测下一个最可能的 token(对于类似 ChatGPT 的 RLHF 模型,它会预测其人类标注者更偏好的下一个 token)。这意味着要生成 200 个 token,因此需要执行 200 个前向传递。对于每个前向传递,我们需要将模型的所有权重从高带宽(HBM)内存加载到矩阵计算单元(GPU 的张量计算核)中, 也就是说需要为每个前向传递加载 175GB 的权重。 20 | 21 | 在微软 Azure 平台上,一个节点上可以分配 A100 的最大数量是 8。这意味着每个模型实例的最大张量并行度是 8。因此,其实不需要为每个前向传递加载 175GB 的权重,而只需要为每个前向传递的每个 GPU 加载 21.87GB,因为张量并行性可以在所有 GPU 上并行化权重和计算。 22 | 23 | ![图片](https://mmbiz.qpic.cn/mmbiz_jpg/KmXPKA19gW9LmGUsXS5PpHNje4sW1GibSvQEPwLFzsEibhvzo1l7Xdoicib61srQ4mibbVnstp8sic382uE1RdX3K2zw/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)*图片出自 Megatron-LM 论文,地址:https://arxiv.org/abs/1909.08053* 24 | 25 | 在 A100 80GB SXM 版本上,最大内存带宽是 2TB/s。这意味着在 batchsize=1 的情况下(受内存带宽限制),前向传递最大的理论速度将达到 91 次 / 秒。同时,大部分时间都花在加载权重上,而不是计算矩阵乘法。 26 | 27 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9LmGUsXS5PpHNje4sW1GibSam25d4yRelWseK3htiba2HYzgaia6Dch3RZKdUAunFecLTCRib89dJ1uw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)*注意:对于 fp16/bfloat16,当受内存带宽限制时,最大的理论前向传递速度达到 45.5 次 / 秒。* 28 | 29 | **ChatGPT 的实际延迟是多少?** 30 | 31 | 在夜间运行 Python 编写的脚本(夜间运行的开销更低),来测试通过 OpenAI API 使用 ChatGPT 的延迟,前向传递能够获得的最大实证速度是 101 次 / 秒。本文使用了实验的最大实证结果,这是因为需要从 OpenAI 的后端和动态批处理系统获得最低开销。 32 | 33 | **结论** 34 | 35 | 根据前面假设和论证,我们可以发现存在矛盾的地方,因为基于实证的结果比基于 A100 平台内存带宽的最大理论结果要快得多。因此可以得出结论,OpenAI 用于推理的 ChatGPT 模型绝对不是等价于 1750 亿参数的稠密模型。 36 | 37 | **常见问题问答** 38 | 39 | **1、为什么预测 ChatGPT 推理模型的参数量而不是训练模型的参数量?** 40 | 41 | 使用内存带宽方法来估计模型参数数量,这只适用于推理模型。我们无法确切地知道 OpenAI 是否应用了蒸馏等技术,使其推理模型比训练模型更小。 42 | 43 | > 许多昆虫都有一种幼虫形态,其在从环境中提取能量和营养方面进行了优化,而完全不同的成体形态则在旅行和繁殖的非常不同的要求方面进行了优化。—— 出自 Geoffrey Hinton、Oriol Vinyals、Jeff Dean,2015 年。 44 | 45 | **2、是否有做其它的假设?** 46 | 47 | 证明中其实还包括 3 个假设: 48 | 49 | - 假设计算巨大矩阵乘法所需的时间相对于每个前向传递加载参数的时间为 0; 50 | - 假设进行 GPU 之间的通信所需的时间也为 0。如果不假设 GPU 之间的通信和矩阵乘法所需的时间为 0,则 1750 亿参数模型的每秒最大理论 token 将会减少; 51 | - 假设 ChatGPT 是基于 Transformer 架构的变种。 52 | 53 | **3、Dense Equivalent 是什么意思?** 54 | 55 | 过去几年中,研究人员已经进行关于稀疏混合专家 LLM(如 Switch Transformer)的研究。Dense equivalent 表示每次前向传递使用多少参数。使用本文所述的方法,无法证明 ChatGPT 不是一个 1750 亿参数的稀疏 MoE 模型。 56 | 57 | **4、是否考虑过 KV 缓存 Transformer 推理优化?** 58 | 59 | 就算使用 KV 缓存优化,每次前向传递仍需要加载整个模型,KV 缓存仅在 FLOPs 上节省,但不会减少内存带宽消耗(实际上它会增加,因为需要每次前向传递都加载 KV 缓存)。 60 | 61 | **5、是否考虑过 Flash Attention?** 62 | 63 | 虽然 Flash Attention 在内存带宽效率和实际时间速度方面表现更好,但每次前向传递仍需要加载整个模型,因此前面的论证仍然成立。 64 | 65 | **6、是否考虑过管道并行 / 更细粒度的并行策略?** 66 | 67 | 利用 pipeline 并行会导致相同的最大前向传递次数。但是,通过使用 micro-batch 和更大的 batch 大小,吞吐量(总 token 数 / 秒)可以增加。 68 | 69 | **7、考虑过将张量并行性增加到 8 以上吗?** 70 | 71 | A100 平台支持每个节点 16 个 A100,但 Azure 不支持此功能。只有 Google Cloud 支持此功能,但几乎没有人使用。Azure 不太可能为 OpenAI 定制一个带有 16 个 A100 的节点,并且不将其发布为公共 GA 版本,以分摊设计或维护新节点的成本。关于节点间的张量并行性,这只是一个可能性,但这是一种不太具成本效益的在 A100 上进行推理的方式。就连英伟达也不建议对节点间的张量并行处理。 72 | 73 | **8、有没有考虑使用 INT4 存储权重?** 74 | 75 | 尽管使用 INT4 被证明有效,但是 OpenAI 的 GPU Kernel Compiler 不支持 INT4 的加载、存储或矩阵乘法,也没有计划将 INT 加入到他们的技术路线图中。由于不支持 INT4 的加载或存储,你甚至无法像将权重存储为 INT4,然后量化转回高精度格式(如 INT8、bfloat16 等)。 76 | 77 | 参考链接: 78 | 79 | - *htt**ps://kipp.ly/blog/transformer-inference-arithmetic/* 80 | - *https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf* 81 | - *https://openai.com/research/techniques-for-training-large-neural-networks* 82 | - *https://arxiv.org/abs/2211.10438* 83 | - *https://arxiv.org/abs/1909.08053* 84 | - *https://arxiv.org/abs/2005.14165* -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/专知.md: -------------------------------------------------------------------------------- 1 | # 专知 2 | 3 | 4 | 5 | ## 2023-03-05 6 | 7 | - [伯克利最新《Transformer推理全栈优化》综述,45页pdf](https://mp.weixin.qq.com/s/HJnwzhLNpuEagOJDONyeNQ) 8 | 9 | - [ChatAug: 利用ChatGPT进行文本数据增强](https://mp.weixin.qq.com/s/OIY7XKyO2FpALaxykL-0QA) 10 | 11 | - [92页ppt!伯克利最新《transformer可扩展扩散模型》论文](https://mp.weixin.qq.com/s/HduGfOvJUsxAIUgtLN2j-w) 12 | 13 | ## 2023-03-04 14 | 15 | - [《ChatGPT对文献情报工作的影响》研究报告(简版)](https://mp.weixin.qq.com/s/pK-fDf21BEOMnsX3jxfJig) 16 | 17 | - [史上最好讲解GPT的视频!斯坦福Webinar-GPT-3 & Beyond, Christopher Potts教授](https://mp.weixin.qq.com/s/XKBX6I9WEL_mN5JItFRIDQ) 18 | 19 | ## 2023-03-03 20 | 21 | - [【ChatGPT系列报告】ChatGPT:百度文心一言畅想,41页ppt](https://mp.weixin.qq.com/s/CDHJObtT7TRKRtfuGDhcJQ) 22 | 23 | - [【ChatGPT系列报告】AIGC深度报告:新一轮内容生产力革命的起点, 81页ppt](https://mp.weixin.qq.com/s/V7GDzR9fTMK1weNVcnIKWw) 24 | 25 | ## 2023-03-02 26 | 27 | - [ChatGPT核心技术“RLHF”如何学习?最新《基于人类反馈的强化学习:从零到chatGPT》综述,附视频与51页slides](https://mp.weixin.qq.com/s/oDLtJ8rwv5-XVFlya5f4nw) 28 | 29 | ## 2023-03-01 30 | 31 | - [ChatGPT鲁棒性如何?微软等WSDM2023《领域泛化》教程,阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能](https://mp.weixin.qq.com/s/aNRkbSphevajcxoPfeMmqg) 32 | 33 | ## 2023-02-26 34 | 35 | - [ChatGPT和机器人如何结合?微软最新《ChatGPT机器人:设计原则和模型能力》论文,25页pdf](https://mp.weixin.qq.com/s/y01_2K2-Jci83wftMIOPug) 36 | 37 | ## 2023-02-25 38 | 39 | - [【ChatGPT系列报告】2023中国AIGC市场研究报告:ChatGPT的技术演进、变革风向与投资机会分析](https://mp.weixin.qq.com/s/Z2PlN_pqLNjkmtE6dGjoxw) 40 | 41 | ## 2023-02-24 42 | 43 | - [多模态预训练怎么做?鹏程实验室等最新《大规模多模态预训练模型》全面综述,45页pdf全面阐述其数据、网络架构等技术](https://mp.weixin.qq.com/s/dZ1YNztggz_km1dHu8lhtg) 44 | - [【ChatGPT系列报告】大模型技术突破,AI多场景落地,49页ppt](https://mp.weixin.qq.com/s/f7Tf1XE2fFcRF43wxzCZOw) 45 | 46 | ## 2023-02-23 47 | 48 | - [【ChatGPT系列报告】ChatGPT不断突破,AI驶入快车道](https://mp.weixin.qq.com/s/jvNk8kdIQ9u6-Su93gMZGQ) 49 | 50 | ## 2023-02-22 51 | * [ChatGPT背后的大模型技术如何炼?MSU等最新《预训练基础模型综述》,97页pdf全面阐述BERT到ChatGPT历史脉络](https://mp.weixin.qq.com/s/yDB9VKSKIu-4spJ2hiH1JQ) 52 | * [【ChatGPT系列报告】从 ChatGPT 等生成式 AI 的算力开销及商业化潜力,26页pdf](https://mp.weixin.qq.com/s/NO0P2PXBHSMtTYJKVW-6mQ) 53 | ## 2023-02-21 54 | * [ChatGPT是怎么练成的?斯坦福CS224N课程讲解《自然语言生成》等核心技术,附71页Slides](https://mp.weixin.qq.com/s/wxYdUMBDFc7InBi83OBy-A) 55 | * [ChatGPT 背后的“功臣”——人类反馈强化学习RLHF 技术详解](https://mp.weixin.qq.com/s/mZdZS9QNda26Ae0OIhRjFA) 56 | ## 2023-02-20 57 | * [【ChatGPT系列报告】为人形机器人注入“灵魂”](https://mp.weixin.qq.com/s/GYJCrfhtdpK1aep_O2AMHA) 58 | ## 2023-02-19 59 | * [【ChatGPT系列报告】ChatGPT的“背后英雄”,100页报告看懂GPU](https://mp.weixin.qq.com/s/fACP1lsJiZcZP3z1XTenNw) 60 | ## 2023-02-16 61 | * [Transformer有什么新研究?AAAI2023最新《Transformer:架构、优化、应用和解释》教程,附Slides](https://mp.weixin.qq.com/s/7m8lRJIDTCDMZ7-5egrOug) 62 | * [【ChatGPT系列报告】AIGC专题二:ChatGPT更懂人类的叙事](https://mp.weixin.qq.com/s/1bwn5OOvj113AvNmhqCOlQ) 63 | * [【ChatGPT系列报告】AIGC的技术与应用生态发展进入新阶段,引领内容产业大革命](https://mp.weixin.qq.com/s/fYgeOdeeknQSoNzLRNF_pg) 64 | * [ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战](https://mp.weixin.qq.com/s/ogpOQGF9fAxv3TdX807ung) 65 | ## 2023-02-15 66 | * [【ChatGPT系列报告】ChatGPT研究框架,64页pdf](https://mp.weixin.qq.com/s/tSYv2zTxWRQ2FOnWDl09VQ) 67 | ## 2023-02-14 68 | * [ChatGPT 专题| ChatGPT报告:从ChatGPT到生成式AI:人工智能新范式,重新定义生产力,100页pdf](https://mp.weixin.qq.com/s/kaWRhrVPCIzQ3rTR22P_Pg) 69 | ## 2023-02-13 70 | * [AIGC的技术发展和应用:ChatGPT,20页pdf](https://mp.weixin.qq.com/s/oxJzaCT73ufHzKB5AMaNIg) 71 | * [ChatGPT核心技术:强化学习PPO算法](https://mp.weixin.qq.com/s/z4oc9xQmduKMolWxztdHjA) 72 | ## 2023-02-11 73 | * [《ChatGPT:利用最先进的技术支撑多域作战》](https://mp.weixin.qq.com/s/Qj8moXYhaNSl1nW4Byfl0w) 74 | * [ChatGPT研究框架(2023),72页ppt详解现象级ChatGPT发展历程、原理、技术架构详解和产业未来](https://mp.weixin.qq.com/s/KHQuyMV9dTWnqcbWXK00Kw) 75 | ## 2023-02-10 76 | * [AIGC行业深度报告:ChatGPT:重新定义搜索“入口”](https://mp.weixin.qq.com/s/9S5THh-IIqOkyVvFiJ85Sg) 77 | ## 2023-02-09 78 | * [ChatGPT与AIGC深度报告:引领AI新浪潮,AIGC商业化启程](https://mp.weixin.qq.com/s/OLmMCFWGy3uQwbRY3JsA8A) 79 | ## 2023-02-06 80 | * [最新《ChatGPT》报告, 风口已至,商业化落地加速, 14页pdf](https://mp.weixin.qq.com/s/pWsjuSNesvj3-e0-Cz-f9g) 81 | ## 2023-02-05 82 | * [《使用 GPT-3 AI 预测地缘政治冲突:2022 年乌克兰战争一年后的现实检验》2023最新论文](https://mp.weixin.qq.com/s/LgSNwnRt8hY8vBmdJsNb3w) 83 | ## 2023-02-03 84 | * [ChatGPT最新解读报告:开启AI新纪元,31页ppt](https://mp.weixin.qq.com/s/1DXiaSwny_n-IYI-DJLsDw) 85 | ## 2023-01-18 86 | * [港科大陈启峰博士:AIGC的现状与展望](https://mp.weixin.qq.com/s/V3e1a1skJlnVyzhrAJzzxg) 87 | ## 2023-01-10 88 | * [【哈工大SCIR】浅析ChatGPT的原理及应用](https://mp.weixin.qq.com/s/tQ88lKk69QkXwEeDA0POkw) 89 | 90 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/学术头条.md: -------------------------------------------------------------------------------- 1 | # 学术头条 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | - [AIGC周报|3分钟让“文生图”AI更有个性;ChatGPT:这一次,我问你答;与AI“面对面”聊天](https://mp.weixin.qq.com/s/yHo3mciFbSHhCZWrwsUe4Q) 8 | 9 | ## 2023-03-18 10 | 11 | - [GPT-4之高考评测](https://mp.weixin.qq.com/s/r5_zQxv_8kG_D2v4WIVjqw) 12 | 13 | ## 2023-03-17 14 | 15 | - [GPT-4嵌入Office 365,要“革了打工人的命”?](https://mp.weixin.qq.com/s/VLO1zjuUM3oHvsMfKN-fcw) 16 | 17 | ## 2023-03-15 18 | 19 | - [OpenAI发布GPT-4:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?](https://mp.weixin.qq.com/s/JvdKyKem2XW5GQQM2WRxQA) 20 | 21 | ## 2023-03-14 22 | 23 | - [ChatGLM:千亿基座的对话模型启动内测,单卡版模型已全面开源](https://mp.weixin.qq.com/s/N79Sdx3K1em1EJxQZ9lcpA) 24 | 25 | ## 2023-03-13 26 | 27 | - [AIGC周报|AI换脸新方法:更高雅更实用;“音生图”模型来了;AI程序员靠谱吗?](https://mp.weixin.qq.com/s/XAauHZuw-OCvJQcpjPmeMw) 28 | 29 | ## 2023-03-11 30 | 31 | - [终于,乔姆斯基出手了:追捧ChatGPT是浪费资源](https://mp.weixin.qq.com/s/2hRoB9XViHrgIu5m4kwyKQ) 32 | 33 | ## 2023-03-09 34 | 35 | - [口述历史,探析ChatGPT的创造历程,ChatGPT的内部故事](https://mp.weixin.qq.com/s/bI6o5rXANz35i8Pg6HHdjQ) 36 | 37 | ## 2023-03-08 38 | 39 | - [ChatGPT成功的“秘密武器”:RLHF将怎样影响人类社会?](https://mp.weixin.qq.com/s/rgw1cFOheofQuE8mLxe32A) 40 | 41 | ## 2023-03-07 42 | 43 | - [谷歌PaLM-E 562B:最大的视觉语言模型,堪称机器人、视觉和语言“通才”](https://mp.weixin.qq.com/s/qhr7ypEPqZvZAs_DtmOXcQ) 44 | 45 | - [鸡兔同笼都算错的ChatGPT,陶哲轩发现了它的价值](https://mp.weixin.qq.com/s/CH9N1qQ58d3ZJyQB0ancSg) 46 | 47 | ## 2023-03-06 48 | 49 | - [OpenAI CTO:少炒作GPT-4;美FTC警告:慎重蹭AI热点;ChatGPT能懂你的人格吗?](https://mp.weixin.qq.com/s/EcJYAVC6ZUn3Io9goMmqDQ) 50 | 51 | ## 2023-03-04 52 | 53 | - [符尧:ChatGPT在那里,你们想做什么?](https://mp.weixin.qq.com/s/H7bBeplTHv_09BNuWMK5hw) 54 | 55 | ## 2023-03-03 56 | 57 | - [Science:AI竞赛,学界正在输给业界](https://mp.weixin.qq.com/s/6bRkoKbvYED8BTu5RUjilQ) 58 | 59 | ## 2023-03-02 60 | 61 | - [中国AI产业发展需要突破哪些瓶颈?行业专家答12个关键问题](https://mp.weixin.qq.com/s/Lous-ix7eQUrlW0bo7l8LA) 62 | 63 | ## 2023-02-27 64 | 65 | - [AIGC周报|OpenAI发布通用人工智能规划;ChatGPT是万事通?AI生成的图片失去美国版权](https://mp.weixin.qq.com/s/xM3VLGK3Q1_GjA3nx2uG2A) 66 | 67 | ## 2023-02-26 68 | 69 | - [ChatGPT背后的AIGC,将生成怎样的浪潮?|万字圆桌实录](https://mp.weixin.qq.com/s/14wEgcaBq9LixMXoK3AUxg) 70 | 71 | ## 2023-02-22 72 | 73 | * [揭秘ChatGPT背后的AI“梦之队”:90后科研“后浪”展示强大创新能力|智谱研究报告](https://mp.weixin.qq.com/s/sncE01utzu_-r3dLFYU5QA) 74 | ## 2023-02-20 75 | * [港大全面封杀ChatGPT;重新思考ChatGPT抄袭检测;挣钱多的人智商更高?|热点回顾](https://mp.weixin.qq.com/s/WpGaIZVAVlbchu8kgHVtJg) 76 | ## 2023-02-19 77 | * [ChatGPT背后的英雄:OpenAI首席科学家Ilya Sutskever的信仰之跃](https://mp.weixin.qq.com/s/WEppVNdC-A5nVM0xxki_Yw) 78 | ## 2023-02-18 79 | * [ChatGPT之后,下一代大型语言模型在哪里?](https://mp.weixin.qq.com/s/TzgOIh3pW6txFl-oGmmipQ) 80 | ## 2023-02-17 81 | * [AIGC周报|ChatGPT升级计划来了;微软承认:new Bing有时很无赖;ChatGPT作为设计师,水平怎么样?](https://mp.weixin.qq.com/s/VdxDGcAArIpKtVISxkKt_w) 82 | ## 2023-02-15 83 | * [ChatGPT挑起的这场AI竞赛,有一个肮脏的秘密](https://mp.weixin.qq.com/s/uHT2ZpvNHlKWMP1uE9lmww) 84 | * [11个ChatGPT和生成式AI安全趋势|关注](https://mp.weixin.qq.com/s/OYwEQul4dppFrgNBa1X_Lw) 85 | ## 2023-02-13 86 | * [不只是谷歌Bard,ChatGPT加持的微软New Bing也错误频出](https://mp.weixin.qq.com/s/ILSDPosN5ccRTB0VdEr5sw) 87 | ## 2023-02-12 88 | * [专访探索AGI的孤勇者,传奇工程师John Carmack:惊讶看不到如我这样的人](https://mp.weixin.qq.com/s/72o83ZhwHx1VjpTOANHezQ) 89 | ## 2023-02-11 90 | * [我给AI打工:ChatGPT负责创作漫画,我负责画出来,居然搞出超现实主义?](https://mp.weixin.qq.com/s/iG8ta1es_eeAjS9RQN3E-g) 91 | ## 2023-02-10 92 | * [AIGC周报|让AI讲个笑话,像人类那样;AI模仿我的艺术风格?别想了;由纯文本生成故事书](https://mp.weixin.qq.com/s/kEd16v_rCyAzjIgSZrx7zQ) 93 | ## 2023-02-09 94 | * [谷歌版ChatGPT首秀,第一个Demo就大翻车,市值暴跌7000亿](https://mp.weixin.qq.com/s/cUUF5sqtD-8CPpiaKp16vA) 95 | ## 2023-02-08 96 | * [今天,微软正式打响“搜索大战”:借ChatGPT式AI模型重塑搜索](https://mp.weixin.qq.com/s/KreCUtj_wMNm4-UhawENeQ) 97 | ## 2023-02-07 98 | * [《纽约时报》:ChatGPT是如何掀起AI军备竞赛的?](https://mp.weixin.qq.com/s/kZb3ts5g_jH6rEEDI2oz9A) 99 | ## 2023-02-06 100 | * [《时代》专访ChatGPT:我还有很多局限,但人类应准备好应对AI](https://mp.weixin.qq.com/s/dt6BZbMzdTqCLfOQIOUe-w) 101 | * [谷歌发布视频生成类AIGC,网友:可以定制电影了](https://mp.weixin.qq.com/s/wV9tyI5Qb86ss0EoY4FG6A) 102 | ## 2023-02-05 103 | * [ChatGPT 的内幕:OpenAI 创始人Sam Altman如何用微软的数十亿美元打造了全球最热门技术](https://mp.weixin.qq.com/s/dEgL8reUBRTE-kA-kJQsVw) 104 | ## 2023-02-03 105 | * [AIGC周报|中国绘画+书法,AICG赋能传统艺术创作;比尔·盖茨:ChatGPT的历史意义不亚于PC或互联网诞生](https://mp.weixin.qq.com/s/FqaFq6eB5zMgNcWJMpURkA) 106 | ## 2023-02-02 107 | * [被OpenAI CEO取关后,Yann LeCun再次抨击:ChatGPT对现实的把握非常肤浅](https://mp.weixin.qq.com/s/qZDWA7sXpj7Qw75Dm7g-Xw) 108 | ## 2023-01-29 109 | * [斯坦福团队推出DetectGPT,学生用AI写论文要犯难了](https://mp.weixin.qq.com/s/AHlMsImJXENj_vyqffW1uA) 110 | ## 2023-01-11 111 | * [《达摩院2023十大科技趋势》发布,生成式AI、多模态预训练大模型入选](https://mp.weixin.qq.com/s/7oqVmYsNpn8OQlvl-UF-9g) 112 | ## 2023-01-06 113 | * [为了修改国会法案,GPT-3.5模型写了这样一封信](https://mp.weixin.qq.com/s/HFaTji1nRBy3n_yt7bq1mg) 114 | ## 2022-12-29 115 | * [干货!​如何打造我们自己的“ChatGPT”?| 大佬思辨](https://mp.weixin.qq.com/s/iQtm-11IQkfQedMlDcPu9A) 116 | 117 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/Cver.md: -------------------------------------------------------------------------------- 1 | # Cver 2 | 3 | 4 | 5 | ## 2023-03-19 6 | 7 | - [突发!李开复宣布加入中文版ChatGPT大战!要打造AI 2.0全新平台!](https://mp.weixin.qq.com/s/WpxhJLHC0DTfBX2fYSr08A) 8 | 9 | - [Meta提出Make-A-Video3D:一行文本,生成3D动态场景!](https://mp.weixin.qq.com/s/-p2x4Rp4hKkU7lD6kq8G1Q) 10 | 11 | ## 2023-03-18 12 | 13 | - [GPT-4外逃计划曝光!斯坦福教授发现它正引诱人类帮助,网友:灭绝之门...](https://mp.weixin.qq.com/s/ZBpL-P501aDFZmOQs8zWiA) 14 | 15 | - [Stable Diffusion公司新作Gen-1:基于扩散模型的视频合成新模型,加特效杠杠的!](https://mp.weixin.qq.com/s/X5GrCefKz9hozd8eyT1fJA) 16 | 17 | ## 2023-03-17 18 | 19 | - [GPT-4刚刚接入Office全家桶!微软:重新发明生产力!](https://mp.weixin.qq.com/s/DZ2MRTdo5ho6Fd9AZhOUcQ) 20 | 21 | ## 2023-03-15 22 | 23 | - [清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!](https://mp.weixin.qq.com/s/q_NE6Cjdv8LHrAGInwyy7w) 24 | 25 | - [AI开发大一统!谷歌OpenXLA开源,整合所有框架和AI芯片!](https://mp.weixin.qq.com/s/qxqvfWi5EC3HJi9h08fsMg) 26 | 27 | ## 2023-03-14 28 | 29 | - [ControlNet仅靠一张照片完成“旧房改造”!GitHub热榜第一](https://mp.weixin.qq.com/s/XJWGYGO_hM2UNz1pRKa-Pg) 30 | 31 | ## 2023-03-13 32 | 33 | - [CVPR 2023 | GAN的反击!朱俊彦新作GigaGAN,出图速度秒杀Stable Diffusion!](https://mp.weixin.qq.com/s/T4mX8Fn95bpDSm26WEA-2Q) 34 | 35 | - [陶哲轩:ChatGPT已加入我的数学工作流](https://mp.weixin.qq.com/s/cR1tYAjL0nfDOBAjmtwasA) 36 | 37 | ## 2023-03-12 38 | 39 | - [CVPR 2023 | 基于CLIP的微调新范式!训练速度和性能均创新高!](https://mp.weixin.qq.com/s/ppu-IvdCS5ougk5gSVr8Bg) 40 | 41 | ## 2023-03-10 42 | 43 | - [Transformer:一种图灵完备的神经网络](https://mp.weixin.qq.com/s/-ihb0VN7yNb8ueAu4eRhyg) 44 | 45 | ## 2023-03-09 46 | 47 | - [炸了!谷歌发布史上最大"通才"模型PaLM-E,5620亿参数!看图说话还能操控机器人](https://mp.weixin.qq.com/s/DRzhMbnboxJt3x8ss9ABOg) 48 | 49 | ## 2023-03-08 50 | 51 | - [ChatPDF也来了!一键上传文件即可解读,复制粘贴都省了...](https://mp.weixin.qq.com/s/GzVWukBuUThyfUkIqa8ywA) 52 | 53 | ## 2023-03-06 54 | 55 | - [从BERT到ChatGPT!97页全面综述:那些年一起追过的预训练基础模型](https://mp.weixin.qq.com/s/05ezUXGWgTHpwJP9koACsw) 56 | 57 | - [微软多模态ChatGPT来了?搞定看图答题、智商测验等任务!](https://mp.weixin.qq.com/s/BhvKf6sTxvHURPuhoxqDmg) 58 | 59 | ## 2023-02-27 60 | 61 | * [OpenAI最新发布通用人工智能路线图!AGI比想象中来得更快!](https://mp.weixin.qq.com/s/G8MM9KGujuJhresmsu-wfA) 62 | ## 2023-02-22 63 | * [火爆全网!ControlNet颠覆AI绘画游戏规则!网友:这是新“魔法”...](https://mp.weixin.qq.com/s/MICSUB3FRogYOwO_tetqdQ) 64 | ## 2023-02-20 65 | * [香港大学禁用ChatGPT,违者学生将被视为「抄袭」!](https://mp.weixin.qq.com/s/MMG1L9fPSfzemSkZ6BueLA) 66 | ## 2023-02-18 67 | * [ChatGPT背后真正的英雄:OpenAI首席科学家Ilya Sutskever的信仰之跃](https://mp.weixin.qq.com/s/9aREBfe3n8-SWs5Y0FoDfA) 68 | ## 2023-02-17 69 | * [BLIP-2:下一代多模态模型的雏形](https://mp.weixin.qq.com/s/g2XSzMTZRxPU6Cwp0W-DlQ) 70 | ## 2023-02-15 71 | * [LeCun和马库斯齐喷ChatGPT:大语言模型果然是邪路?](https://mp.weixin.qq.com/s/5e0aTSEAym9rF5QxRndLgQ) 72 | * [北京:支持头部企业打造对标ChatGPT的大模型](https://mp.weixin.qq.com/s/KoaDCCsTGprd-pYiQ8H1cg) 73 | * [新华社:聊聊ChatGPT](https://mp.weixin.qq.com/s/nv0QhNxHR1VXA4nomBy6dA) 74 | ## 2023-02-13 75 | * [怎样让ChatGPT在其内部训练神经网络?](https://mp.weixin.qq.com/s/snwDN1yGZr5lG-smsPYSlA) 76 | * [炸了!斯坦福新研究:ChatGPT背后模型被证实具有人类心智!知名学者:“这一天终于来了”](https://mp.weixin.qq.com/s/o7Llha-_Ew70Yx4bltoukg) 77 | * [ChatGPT:前世今生与路在何方](https://mp.weixin.qq.com/s/9FzWNG_rTNwRdz68waKqDg) 78 | ## 2023-02-12 79 | * [国内C刊声明:隐瞒ChatGPT使用情况,将退稿或撤稿处理!](https://mp.weixin.qq.com/s/DmONVMmYTrkRn6qt6HIdOQ) 80 | * [ChatGPT中国赛开卷!互联网大佬自掏5000万美元入坑,张朝阳反泼冷水](https://mp.weixin.qq.com/s/WgTt1wGOuziY7V7HEjijww) 81 | ## 2023-02-08 82 | * [压着谷歌打!ChatGPT正式上线微软搜索!搜索引擎迎来大变革!](https://mp.weixin.qq.com/s/GD0fGVD7F-xBu6Ne5yyQdg) 83 | * [用ChatGPT处理Excel问题,工作效率狂升!](https://mp.weixin.qq.com/s/xmI7eYtOo_vLwgq2JPiy6A) 84 | ## 2023-02-07 85 | * [顶流的扩散模型,真的比GAN强吗?](https://mp.weixin.qq.com/s/2KwYCGA3BVglIdMIEUm4HQ) 86 | ## 2023-02-06 87 | * [Gmail之父发声:有了ChatGPT,搜索引擎活不过两年了...](https://mp.weixin.qq.com/s/m8C0QNfhD2YuEH9_TXpuTw) 88 | ## 2023-02-04 89 | * [ChatGPT修bug横扫全场!准确率达78%!网友:程序员要开心了](https://mp.weixin.qq.com/s/flyW_NbpyDaEGuNkRggY3w) 90 | ## 2023-02-01 91 | * [ChatGPT连夜迭代:你老婆不好使了](https://mp.weixin.qq.com/s/SWRo7M3NtOhP_I7zNMm4_w) 92 | ## 2023-01-28 93 | * [Nature给学术界立规矩:ChatGPT等大模型不可以成为作者](https://mp.weixin.qq.com/s/FHkKL30dkoNYI1mr4nhNlg) 94 | ## 2023-01-27 95 | * [学生用ChatGPT拿下全班最高分!教授惊呆!全美高校打响AI反击战...](https://mp.weixin.qq.com/s/YRMtEnpG9NX5thLolTr81g) 96 | ## 2023-01-26 97 | * [LeCun指出:ChatGPT缺乏创新,没什么革命性!网友:早点离开Meta做出点突破吧...](https://mp.weixin.qq.com/s/_dJyohXaZcJB6qatxtg_jA) 98 | * [300行代码搞定!特斯拉前AI总监发布:NanoGPT,最简单最快的库来了!](https://mp.weixin.qq.com/s/jljLVwvqd9VP7DFFdYCnCQ) 99 | ## 2023-01-25 100 | * [ChatGPT背后的标注人:在非洲只管「鉴黄」!时薪不到两美元...](https://mp.weixin.qq.com/s/9SlPoTRPHNlt0dT54bgF3g) 101 | ## 2023-01-18 102 | * [微软又出大招!ChatGPT将加入云服务!](https://mp.weixin.qq.com/s/lx7GE7x3IwijZ9DmsjUOEQ) 103 | ## 2023-01-16 104 | * [大学生用GPT-3写论文遭处罚!ChatGPT或引发学术圈大地震...](https://mp.weixin.qq.com/s/sacplgRjyaL_naF1TIDV1w) 105 | * [Stable Diffusion被起诉!结果人类律师水平拉胯,网友:还不如ChatGPT帮他写](https://mp.weixin.qq.com/s/mp8ACIAWqTQDH8YpotneVw) 106 | ## 2023-01-13 107 | * [我用ChatGPT写神经网络:一字不改,结果竟然很好用!](https://mp.weixin.qq.com/s/XPycrkFW9DrARYzTTzdp7A) 108 | ## 2023-01-12 109 | * [刺激!微软或将ChatGPT加入Word、PPT和Excel全家桶!](https://mp.weixin.qq.com/s/bJ-9DKvuEAF-3tZFP1R5sg) 110 | ## 2023-01-08 111 | * [学校封杀,大厂禁用,ChatGPT引发大面积恐慌!](https://mp.weixin.qq.com/s/rgAJ8P4soK79fDBs0-1VZQ) 112 | 113 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/AI有道.md: -------------------------------------------------------------------------------- 1 | # AI有道 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | - [看了 GPT-4 的表现,我感觉要失业了...](https://mp.weixin.qq.com/s/xHX2moppjihhUEv6RDYEMA) 8 | 9 | ## 2023-03-19 10 | 11 | - [ChatGPT,卷不动了!](https://mp.weixin.qq.com/s/QmK18DSeiha3DNAqmR_WRw) 12 | 13 | ## 2023-03-18 14 | 15 | - [微软深夜放炸弹!GPT-4 Office 全家桶发布,10 亿打工人被革命](https://mp.weixin.qq.com/s/X0DX3ZF0d-cgZlDpTbwsCw) 16 | 17 | - [CVPR2023|不好意思我要加速度了!FasterNet:更高 FLOPS 才是更快更强的底气](https://mp.weixin.qq.com/s/UINuS_t38CItHb7LODkiUQ) 18 | 19 | ## 2023-03-16 20 | 21 | - [文心一言 vs GPT-4 实测!百度背水一战交卷](https://mp.weixin.qq.com/s/PupjMsk1sppP0luvm8otww) 22 | 23 | ## 2023-03-15 24 | 25 | - [如何蹭 ChatGPT 的热度发一篇顶会?](https://mp.weixin.qq.com/s/CXjo4iulJLf-2iEJ3fruUw) 26 | 27 | - [GPT-4 发布!ChatGPT 大升级!太太太太强了!](https://mp.weixin.qq.com/s/ldQic01aevoJFl_PwjXrfw) 28 | 29 | ## 2023-03-14 30 | 31 | - [原来 Transformer 就是一种神经网络,这个概念你清楚吗?](https://mp.weixin.qq.com/s/wB2ZqShecK30RzRRHVqRwA) 32 | 33 | - [清华朱军团队开源首个基于 Transformer 的多模态扩散大模型,文图互生、改写全拿下](https://mp.weixin.qq.com/s/ivJy91wbgACFScc3pvfXWw) 34 | 35 | ## 2023-03-10 36 | 37 | - [ChatPDF,也来了...](https://mp.weixin.qq.com/s/v6xvIywLlLHoeyL2HLec9w) 38 | 39 | ## 2023-03-09 40 | 41 | - [鸡兔同笼都能算错的 ChatGPT,陶哲轩发现了它的价值](https://mp.weixin.qq.com/s/Ie_ySLdjRDd408JfOa-heA) 42 | 43 | - [谷歌发布史上最大「通才」模型 PaLM-E,5620 亿参数,看图说话还能操控机器人](https://mp.weixin.qq.com/s/Tgy_eVQVC_8sMLgWEc83YQ) 44 | 45 | ## 2023-03-08 46 | 47 | - [大神李沐被曝离职!投身大模型创业,GitHub 项目已开](https://mp.weixin.qq.com/s/iJOARx4N92uduRsYMfFzJQ) 48 | 49 | ## 2023-03-07 50 | 51 | - [如何用 ChatGPT 写论文?](https://mp.weixin.qq.com/s/4PzcPOJB4jDhmcglvUGWkg) 52 | 53 | ## 2023-03-05 54 | 55 | - [ChatGPT 团队揭秘:3 清华、1 北大、1 华科](https://mp.weixin.qq.com/s/vqjrs3Z11YnybwhWENHf3Q) 56 | 57 | 58 | ## 2023-03-04 59 | 60 | - [靠 ChatGPT 年入百万?](https://mp.weixin.qq.com/s/olss0raWhx4oFLiLovULKA) 61 | 62 | 63 | ## 2023-03-01 64 | 65 | - [毫不夸张!ChatGPT 还真离不开无监督学习!](https://mp.weixin.qq.com/s/WlNbdOrOUpyqGsIi1NIw-A) 66 | 67 | 68 | ## 2023-02-26 69 | 70 | - [ChatGPT 火爆,最全 prompt 工程指南登 GitHub 热榜,标星 4.7k!](https://mp.weixin.qq.com/s/So0g5hUYrAxZVlr5lh0Nag) 71 | 72 | ## 2023-02-25 73 | 74 | - [第一批因 ChatGPT 坐牢的人,已经上路了](https://mp.weixin.qq.com/s/vyfew9BGDW8pJcO1p0FgDQ) 75 | 76 | ## 2023-02-24 77 | 78 | - [ChatGPT,真香!谷歌顶级 AI 人才组团叛逃 OpenAI](https://mp.weixin.qq.com/s/g_hfOxRvJRYd-xXm6rWriw) 79 | 80 | ## 2023-02-21 81 | 82 | * [3 万字长文入门视觉 Transformer](https://mp.weixin.qq.com/s/dup8P6WGY7wdZW0KtYwOVg) 83 | ## 2023-02-18 84 | * [ChatGPT 上岸第一剑,先斩开发者!](https://mp.weixin.qq.com/s/3xcNLkNhOLX4iD_yaqModw) 85 | ## 2023-02-17 86 | * [ChatGPT 教你写 AI,包教包会!](https://mp.weixin.qq.com/s/DDXaVZZ2h9Al-IlTeNlqXA) 87 | ## 2023-02-16 88 | * [开源方案复现 ChatGPT 流程!1.62GB 显存即可体验,单机训练提速 7.73 倍](https://mp.weixin.qq.com/s/a2NA24IptGUFEFGejZpUXQ) 89 | ## 2023-02-15 90 | * [「用 ChatGPT 搞钱年入百万!」各路博主发布生财之道,网友回呛:答辩的搬运工](https://mp.weixin.qq.com/s/PR4zb_8F8b8jCIP4wqB-jQ) 91 | ## 2023-02-14 92 | * [别只骂谷歌 Bard了,ChatGPT 加持的微软 New Bing 也错误频出](https://mp.weixin.qq.com/s/98DHBSUniK6NKEZY5QiTeQ) 93 | ## 2023-02-13 94 | * [ChatGPT 中国赛开卷!互联网大佬自掏 5000 万美元入坑,张朝阳反泼冷水](https://mp.weixin.qq.com/s/NoQjK4olPE0PZWY8ilDThA) 95 | ## 2023-02-11 96 | * [牛逼!ChatGPT 中文版 VS Code 插件来了!免登录、免注册](https://mp.weixin.qq.com/s/zUYkGY9dlBpBqi_D2M1g8A) 97 | * [不出所料,自动驾驶向 ChatGPT 下手了!](https://mp.weixin.qq.com/s/kLPOj_JV3ux5-MVf4LvDAQ) 98 | ## 2023-02-09 99 | * [重磅发布!微软推出首款 ChatGPT 版搜索引擎!](https://mp.weixin.qq.com/s/LtQdw0hiT-oX6CVquHM3iQ) 100 | ## 2023-02-08 101 | * [《时代》专访 ChatGPT:我还有很多局限,但人类应准备好应对 AI](https://mp.weixin.qq.com/s/uY-5e6VKTtJyuNRnKNN_CA) 102 | * [再记公式弱爆了!用 ChatGPT 处理 Excel 问题,效率狂升](https://mp.weixin.qq.com/s/2pfE7Wpu5W59cMdIXhV-AA) 103 | ## 2023-02-07 104 | * [Gmail 之父放话:有了 ChatGPT,搜索引擎活不过两年了...](https://mp.weixin.qq.com/s/gKNKpYlTEhL99wyg8Zspjw) 105 | ## 2023-02-06 106 | * [教 ChatGPT 学会看图的方法来了](https://mp.weixin.qq.com/s/EUM0PoraytxstXSybILcFw) 107 | ## 2023-02-05 108 | * [再也不能用 ChatGPT 写作业了!新算法给 AI 生成文本加水印,置信度高达 99.999999999994%](https://mp.weixin.qq.com/s/9RPgCX55N5UaJciCy-vptQ) 109 | ## 2023-02-04 110 | * [60 天月活破亿,ChatGPT 之父传奇:16 岁出柜,20 岁和男友一同当上 CEO](https://mp.weixin.qq.com/s/Eo-LEwGa9QU-ZOWGix7RtA) 111 | ## 2023-02-02 112 | * [理工科神器 Wolfram|Alpha 注入超强计算知识,补足 ChatGPT 短板](https://mp.weixin.qq.com/s/GBKHs1OTLVrtBU5BacBjIw) 113 | ## 2023-01-30 114 | * [GPT-3 核心成员出走打造 ChatGPT 最强竞品!12 项任务 8 项更强,最新估值 50 亿美元](https://mp.weixin.qq.com/s/HERVV2mMHIqwhrpuJXqYJQ) 115 | ## 2023-01-28 116 | * [Nature 给学术界立规矩:ChatGPT 等大模型不可以成为作者](https://mp.weixin.qq.com/s/o_dNusuUDPZqWuudcHaO2w) 117 | ## 2023-01-27 118 | * [学生用 ChatGPT 拿下全班最高分,教授惊呆!全美高校打响 AI 反击战](https://mp.weixin.qq.com/s/9xAbxEnJqJT5OAvfdT50xQ) 119 | ## 2023-01-24 120 | * [小破本也能炼 GPT!300 行代码搞定!](https://mp.weixin.qq.com/s/nBbdvoLMBuEiEryfjN4FNg) 121 | ## 2023-01-19 122 | * [微软杀疯了!全家桶嵌入 ChatGPT,云平台 Azure 强到发指](https://mp.weixin.qq.com/s/g2racw6tRzLOxjst2WlhMg) 123 | ## 2023-01-17 124 | * [剽窃、作弊,ChatGPT竟偷偷生成了12篇署名论文!Marcus炮轰Ta变成CheatGPT](https://mp.weixin.qq.com/s/JF2QG7ch3-QTHT7NzPb75Q) 125 | ## 2023-01-11 126 | * [ChatGPT「克星」来了!华人小哥元旦假期搞定,服务器已挤爆](https://mp.weixin.qq.com/s/Zy6keKQ_qGSWPeRtkMKKcg) 127 | ## 2023-01-08 128 | * [每秒最高 1w+ 使用量,「AI 绘画」成抖音年度爆款!](https://mp.weixin.qq.com/s/RBdtUcp5-5HunjNWfl4prQ) 129 | ## 2023-01-07 130 | * [ChatGPT 封杀潮......](https://mp.weixin.qq.com/s/4m6_toifzPGDr4BVQI0qqg) 131 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/机器学习算法与Python实战.md: -------------------------------------------------------------------------------- 1 | # 机器学习算法与Python实战 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | - [如何利用GPT4 和 ChatGPT 搞科研?](https://mp.weixin.qq.com/s/nrpLDzy-Gbn1iqKfQph7zg) 8 | 9 | ## 2023-03-19 10 | 11 | - [7个角度,用 ChatGPT 玩转机器学习](https://mp.weixin.qq.com/s/LkaDXQ0M7bMuCh3OukQ_-w) 12 | 13 | ## 2023-03-18 14 | 15 | - [关于GPT-4的一些感想](https://mp.weixin.qq.com/s/4S36_svrFZNMXfDNDEWocw) 16 | 17 | ## 2023-03-17 18 | 19 | - [【个人首测】百度文心一言 VS GPT-4](https://mp.weixin.qq.com/s/XJgY-Ql8NGB6eIEvQe2uzA) 20 | 21 | ## 2023-03-16 22 | 23 | - [GPT-4牛是牛,但这几天先别急](https://mp.weixin.qq.com/s/0No2-5cdfjCBY-ba1y5lbQ) 24 | 25 | - [用ChatGPT搞钱?不只!](https://mp.weixin.qq.com/s/w7ZE_uMkjIFX3Rm9bcSgXg) 26 | 27 | ## 2023-03-15 28 | 29 | - [关于GPT-4的几个情报](https://mp.weixin.qq.com/s/HOu9F1mBxCtFBcm7kdGyEA) 30 | 31 | - [万众期待的GPT-4,它来了!](https://mp.weixin.qq.com/s/5ACvBZlPn20qCU1-ECGGQA) 32 | 33 | ## 2023-03-14 34 | 35 | - [用 ChatGPT 玩转哔哩哔哩](https://mp.weixin.qq.com/s/xBu5J3iIFLtIz69Z3JgOnw) 36 | 37 | ## 2023-03-12 38 | 39 | - [视觉ChatGPT来了,微软发布,代码已开源](https://mp.weixin.qq.com/s/JQtA_H3g2G8jWxUxyPn8Gg) 40 | 41 | ## 2023-03-10 42 | 43 | - [ChatPDF!](https://mp.weixin.qq.com/s/UP2KMP7UthL2h6SgZhL7AA) 44 | 45 | ## 2023-03-08 46 | 47 | - [ChatGPT版Office来了:微软下周四举行发布会,CEO亲自上](https://mp.weixin.qq.com/s/ZgUSpJQGs-NQwp-gM3aEnw) 48 | 49 | - [ChatGPT写视频脚本](https://mp.weixin.qq.com/s/YFQD1AKITyshSxMY4jl9SQ) 50 | 51 | ## 2023-03-07 52 | 53 | - [4个工具,让 ChatGPT 如虎添翼!](https://mp.weixin.qq.com/s/GUdge2qjUibnK-CDg3xXPw) 54 | 55 | ## 2023-03-03 56 | 57 | - [ChatGPT API 出来了,推荐几个好玩的项目](https://mp.weixin.qq.com/s/HcOJiaIM5X8woNivkJqhlg) 58 | 59 | ## 2023-03-02 60 | 61 | - [国内申请微软新必应(New Bing)](https://mp.weixin.qq.com/s/R28VXirf7_64KS39DSB8vw) 62 | 63 | ## 2023-02-28 64 | 65 | - [腾讯类ChatGPT保密项目,被曝光](https://mp.weixin.qq.com/s/VJ7VvruUo-S6CoEitvZ8MQ) 66 | 67 | ## 2023-02-27 68 | 69 | - [一步步了解 ChatGPT,先来看名字中的 T](https://mp.weixin.qq.com/s/aWW0T8lLCPhLn7TwE9P44w) 70 | 71 | ## 2023-02-24 72 | 73 | - [ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」](https://mp.weixin.qq.com/s/JgIa58kHXR6QEOaSOPZSCA) 74 | 75 | ## 2023-02-23 76 | 77 | - [飞书 + GPT-3 = 国内可用的聊天Bot](https://mp.weixin.qq.com/s/UsYUYlYJoSMZMWfP_DRIpA) 78 | 79 | ## 2023-02-22 80 | 81 | * [让ChatGPT想象自己有4块3090,内部训练神经网络](https://mp.weixin.qq.com/s/3GIvv--Wlo9BwoQP8IvYTw) 82 | ## 2023-02-20 83 | * [13个强大的Al网站](https://mp.weixin.qq.com/s/ltDpUtbVnsD96Zg_neUGKQ) 84 | * [「用ChatGPT搞钱年入百万!」各路博主发布生财之道,网友回呛:答辩的搬运工](https://mp.weixin.qq.com/s/fy8qTjddftcfUTkOtDgnJA) 85 | ## 2023-02-19 86 | * [张家俊:ChatGPT八个技术问题的猜想](https://mp.weixin.qq.com/s/JUloCXOoy_x5bNAxpbGlgA) 87 | ## 2023-02-18 88 | * [ChatGPT 学习技巧、玩法实例、变现方法、资料合集](https://mp.weixin.qq.com/s/ajokELcrV4aJuiuwcSuSQQ) 89 | ## 2023-02-17 90 | * [万字拆解ChatGPT前世今生!](https://mp.weixin.qq.com/s/26FSPJw2O_H-d9K_8geZnA) 91 | ## 2023-02-16 92 | * [ChatGPT发展历程、原理、技术架构详解和产业未来](https://mp.weixin.qq.com/s/DaCdyvA8kMQQoh6QFU4Htw) 93 | * [用ChatGPT做猫狗识别,Cool](https://mp.weixin.qq.com/s/bPIhNBVDw-Z4SbGA3hbcaQ) 94 | ## 2023-02-15 95 | * [ChatGPT带你入门机器学习:逻辑回归模型博客和小红书风格文案一次搞定!](https://mp.weixin.qq.com/s/2c56F5ybwqTm5SGrJtBXIA) 96 | ## 2023-02-14 97 | * [ChatGPT付费就变快!实测提速超2倍、正确率更高,定价每月20刀](https://mp.weixin.qq.com/s/EzCrIEo0wV6Y6PP5_2Ernw) 98 | ## 2023-02-13 99 | * [ChatGPT发展历程、原理、技术架构详解和产业未来](https://mp.weixin.qq.com/s/tOpdbUywLfsq8uMcZlFRZA) 100 | ## 2023-02-12 101 | * [【Notion AI测评】ChatGPT 平替,国内可用](https://mp.weixin.qq.com/s/qhTsXSsLF1RCDFDw8wcN_A) 102 | ## 2023-02-11 103 | * [ChatGPT is not all you need,一文综述6大公司9类生成式AI模型](https://mp.weixin.qq.com/s/5tFitnYdspPU-HOxdzGmgA) 104 | ## 2023-02-10 105 | * [不出所料,自动驾驶向ChatGPT下手了!](https://mp.weixin.qq.com/s/tQpynGj0PSFWi3a-Enjg8w) 106 | ## 2023-02-09 107 | * [用ChatGPT生成Excel公式,太方便了!](https://mp.weixin.qq.com/s/cc23iuacJc9hZYXuJw9Xag) 108 | ## 2023-02-08 109 | * [今天,微软重新发明搜索引擎:首款ChatGPT搜索来了](https://mp.weixin.qq.com/s/zAPnnyWyvZSyVw6p8yB8rA) 110 | * [我采访了ChatGPT](https://mp.weixin.qq.com/s/E9GJDr8sBCAIS7mHsghXRw) 111 | ## 2023-02-07 112 | * [挑战ChatGPT,谷歌正式发布Bard,CEO亲自下场邀请测试](https://mp.weixin.qq.com/s/gL_j5qXG_l3obio8XBkfdA) 113 | * [ChatGPT 注册、入门、进阶,变现指南](https://mp.weixin.qq.com/s/xUXXbGlEl2gVrz5Py-fXpg) 114 | ## 2023-02-06 115 | * [找到了一篇介绍ChatGPT核心技术的论文](https://mp.weixin.qq.com/s/mAjdCjmI8-XZBZJL1CJspg) 116 | ## 2023-02-05 117 | * [用AI写个AI!(附代码)](https://mp.weixin.qq.com/s/xlJBviAEH-dYc11dY3Znew) 118 | ## 2023-02-03 119 | * [【Notion AI测评】ChatGPT 平替,国内可用](https://mp.weixin.qq.com/s/v5rtugVenOfdK-9jbifl0A) 120 | ## 2023-02-02 121 | * [ChatGPT官宣数学能力再升级,网友:终于精通十以内加减法了](https://mp.weixin.qq.com/s/d3NPIwj5kSy4DDJm2d6TnA) 122 | * [DetectGPT检测大模型生成文本的demo](https://hivemoderation.com/ai-generated-content-detection) 123 | * [GPTZeroX,一个专为教育者打造的全新 AI 检测模型](https://gptzero.substack.com/p/gptzerox) 124 | ## 2023-01-30 125 | * [Yann LeCun:ChatGPT缺乏创新,没什么革命性;](https://mp.weixin.qq.com/s/ENTvzykFlERcp_eO3bRj7Q) 126 | ## 2023-01-14 127 | * [我用ChatGPT写神经网络:一字不改,竟然很好用](https://mp.weixin.qq.com/s/Ict8AmX8q3npAsIDRM8tEw) 128 | ## 2023-01-13 129 | * [微软又给谷歌「双重暴击」,ChatGPT或将加入Word、PPT和Excel!](https://mp.weixin.qq.com/s/P5HcUCiqfUCh0uOe78GyOQ) 130 | ## 2023-01-04 131 | * [最近比较关注AIGC](https://mp.weixin.qq.com/s/4Lg9d9z_NPAg69ol4XJlmw) 132 | ## 2023-01-02 133 | * [李飞飞高徒盘点年度十大AI亮点:扩散模型成最大赢家!多模态正在爆火!](https://mp.weixin.qq.com/s/x6BsFGXpA2Zy3L_7fkwFSw) 134 | ## 2023-01-01 135 | * [热点解读:大模型的突现能力和ChatGPT引爆的范式转变](https://mp.weixin.qq.com/s/nkZ9-fimdbIgNqMl1tOiHA) 136 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/NLP日志录.md: -------------------------------------------------------------------------------- 1 | # NLP日志录 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | - [ChatPaper:一款可利用ChatGPT总结arxiv论文的开源工具](https://mp.weixin.qq.com/s/dTAFXaP0O--v79SP3-zkqg) 8 | 9 | - [Chat IE:一个基于Chat GPT的多轮问答框架用于零样本信息抽取](https://mp.weixin.qq.com/s/2isew8gkwnEs_FqJTyneKQ) 10 | 11 | ## 2023-03-19 12 | 13 | - [ChatGPT认知白皮书](https://mp.weixin.qq.com/s/LanEvXfJCrSYjLg8gfX0sg) 14 | 15 | - [ChatGLM-6B:开源双语对话语言模型](https://mp.weixin.qq.com/s/K0YxXKXNcLbm177XqVt4sQ) 16 | 17 | ## 2023-03-18 18 | 19 | - [ChatGPT中文调教指南](https://mp.weixin.qq.com/s/g1VDdi0V6GlnihcmLw79-Q) 20 | 21 | - [开源的ChatGPT的Chatbot网站模板](https://mp.weixin.qq.com/s/ezMKNEYM2NaJiKp5cOqUag) 22 | 23 | ## 2023-03-17 24 | 25 | - [GPT-4用例追踪](https://mp.weixin.qq.com/s/cp_-mXjC5ExeRsp1Iv7ajg) 26 | 27 | - [ChatGPT相关技术必读论文](https://mp.weixin.qq.com/s/uCFqszk9STRbDILG8mCmFg) 28 | 29 | ## 2023-03-16 30 | 31 | - [GPT-4问世,98页技术报告重点解析](https://mp.weixin.qq.com/s/1NQC2HJ91-CyiXigxtvqsw) 32 | 33 | - [ChatGPT鲁棒性分析:对抗鲁棒与分布外泛化视角](https://mp.weixin.qq.com/s/I1e3Zxyfmp-ZoQUUiCB82w) 34 | 35 | ## 2023-03-15 36 | 37 | - [META大语言模型LLAMA(泄露版)本地部署测试+ChatGPT对比](https://mp.weixin.qq.com/s/IGbvPcfd-psH8tS--xWG6Q) 38 | 39 | - [如何快速开发一个OpenAI/GPT应用](https://mp.weixin.qq.com/s/GiFYQDXb0aMNWzuyqFWwBg) 40 | 41 | ## 2023-03-14 42 | 43 | - [ChatGPT开源替代OpenChatKit](https://mp.weixin.qq.com/s/WCsxH1JncPp58u_mCc3PXg) 44 | 45 | - [NeMo:a toolkit for conversational AI](https://mp.weixin.qq.com/s/aOnk-BG94A2H8MvzN4ReVg) 46 | 47 | ## 2023-03-13 48 | 49 | - [ChatGPT研究报告等资料](https://mp.weixin.qq.com/s/F_HIh2OmdehfeXRzyf5sng) 50 | 51 | 52 | ## 2023-03-12 53 | 54 | - [ChatGPT调研报告](https://mp.weixin.qq.com/s/Gziz05zNkRcQ0W2EKgxxYg) 55 | 56 | 57 | - [AIGC专题三:国内大模型概览](https://mp.weixin.qq.com/s/Wb0HCVwGEOtRlqwJIqwirg) 58 | 59 | 60 | ## 2023-03-11 61 | 62 | - [OpenGpt:创建ChatGPT小应用的AI平台](https://mp.weixin.qq.com/s/RzaXMCNUVcYsveQAivtUnQ) 63 | 64 | 65 | - [Web Stable Diffusion](https://mp.weixin.qq.com/s/MtTjBapZGamAaa1mKPWb-A) 66 | 67 | 68 | ## 2023-03-10 69 | 70 | - [基于OpenAI ChatGPT API的ChatGPT聊天界面](https://mp.weixin.qq.com/s/DTLtmI-8SuO7JKVJAUqB0A) 71 | 72 | 73 | - [用户涂鸦后AI出图](https://mp.weixin.qq.com/s/hp0nkqKZ7pAOK5xfTbm_Lg) 74 | 75 | 76 | ## 2023-03-09 77 | 78 | - [PaLM-E:An Embodied Multimodal Language Model](https://mp.weixin.qq.com/s/_Tz2e02kbEwHcrjMC_u9Aw) 79 | 80 | 81 | - [DGL1.0图机器学习框架](https://mp.weixin.qq.com/s/XNmJ14--9fU-SwDqQVB_CQ) 82 | 83 | 84 | ## 2023-03-08 85 | 86 | - [Awesome ChatGPT API](https://mp.weixin.qq.com/s/wBttsaBienSrqkgkjLKXOg) 87 | 88 | 89 | - [LLaMA模型的量化推理代码](https://mp.weixin.qq.com/s/k9ZIy727qaGjOd5zWgtShA) 90 | 91 | 92 | - [CallGPT:方便使用的ChatGPT API客户端](https://mp.weixin.qq.com/s/OIYyMDfOTsnw2V6vu3vlfw) 93 | 94 | 95 | ## 2023-03-07 96 | 97 | - [ChatGPT资源汇总](https://mp.weixin.qq.com/s/HGfL2spCY67nn5YtMTE0fw) 98 | 99 | 100 | - [Transformer推理的全栈优化综述](https://mp.weixin.qq.com/s/GtntXuCK0tyO_WaYpeUYLQ) 101 | 102 | 103 | ## 2023-03-06 104 | 105 | - [ChatLLaMA项目](https://mp.weixin.qq.com/s/_kIj5P9YUzS-A0AOnSotkQ) 106 | 107 | - [给飞书准备的ChatGPT机器人](https://mp.weixin.qq.com/s/bpgDrwhDTGAW0HORsZBs3g) 108 | 109 | - [强化学习实战教程](https://mp.weixin.qq.com/s/tpaCwiKTpLv1zkXdGSPxTg) 110 | 111 | ## 2023-03-05 112 | 113 | - [AIGC深度报告:新一轮内容生产力革命的起点](https://mp.weixin.qq.com/s/8d3furBk5QdkLDe3cAO0zQ) 114 | 115 | ## 2023-03-04 116 | 117 | - [ChatGPT的资源、评估和检测相关文献列表资源](https://mp.weixin.qq.com/s/YI6yoxu22UJaINUMv6FSJA) 118 | 119 | - [(GPT3)Language Models are Few-Shot Learners](https://mp.weixin.qq.com/s/qMTd_iNptV4vSFn10AdIUg) 120 | 121 | ## 2023-03-02 122 | 123 | - [计算机行业深度报告:ChatGPT火爆出圈,AI算力和行业应用潜力巨大](https://mp.weixin.qq.com/s/4-dwA3wx0rwDyupgqjDiXg) 124 | 125 | - [ChatGPT引发的大模型时代变革](https://mp.weixin.qq.com/s/0shYJSDhoczi7HP6GZylPQ) 126 | 127 | ## 2023-03-01 128 | 129 | - [GPT-3/ChatGPT复现的经验教训](https://mp.weixin.qq.com/s/SUPRaDSFf7khgz_sFXfdpw) 130 | 131 | - [基于OpenAI API与LINE Messaging API的智能助理](https://mp.weixin.qq.com/s/dJNOaCxAkxPaqvFs51NtBA) 132 | 133 | ## 2023-02-28 134 | 135 | - [刘群博士带你简单了解火爆全网的ChatGPT技术](https://mp.weixin.qq.com/s/kyATUB6MWEtMAHSQhRsPNw) 136 | 137 | ## 2023-02-26 138 | 139 | - [FlexGen:只需要一块RTX 3090跑ChatGPT 1750亿参数体量模型](https://mp.weixin.qq.com/s/e4K3H1sXb84p8zyWKltC_A) 140 | 141 | - [非常全面的ChatGPT、LLM相关资源整理分享](https://mp.weixin.qq.com/s/RjljIDYBSH4FAw1h2BSbgQ) 142 | 143 | ## 2023-02-24 144 | 145 | * [ChatGPT超全面课程](https://mp.weixin.qq.com/s/12suyEA3z_gqcybA2IYkBg) 146 | * [Colosse-AI开源ChatGPT方案](https://mp.weixin.qq.com/s/lwfYOszlZEKKclHptYSijw) 147 | ## 2023-02-22 148 | * [大型语言模型的能力分析与应用](https://mp.weixin.qq.com/s/cKZpsNvqQjRoi8aBrBSwRg) 149 | * [ChatGPT相关资源超级大列表](https://mp.weixin.qq.com/s/_wNxJjPBvkCd_-A8-cbslA) 150 | * [ChatGPT原理解析](https://mp.weixin.qq.com/s/GZ27QholheliLSHl7wl_4g) 151 | * [使用Prompts和Chains让ChatGPT成为神奇的生产力工具](https://mp.weixin.qq.com/s/XikmlQdsyfPrt1w-c-Qhmw) 152 | * [基于GPT3的PDF文档问答系统](https://mp.weixin.qq.com/s/GrU8ZVFOh4twLZWkHcG4RA) 153 | ## 2023-02-21 154 | * [ChatGPT的工作方式、现状、正在解决问题和未来计划](https://mp.weixin.qq.com/s/W8CGnwkaMT4ANYygvcWPWw) 155 | * [Instruction Tuning:谷歌Quoc V.Le团队提出又一精调范式](https://mp.weixin.qq.com/s/03M62rqsobXGHSGXRGhhHw) 156 | * [xiaogpt:用小爱音箱玩ChatGPT](https://mp.weixin.qq.com/s/yqdNIytDrgpp9p9fkjNVZw) 157 | ## 2023-02-20 158 | * [funNLP中文NLP资源库](https://mp.weixin.qq.com/s/aCeSMWKIjKE9sPoevvCYLA) 159 | * [GPU:研究框架(100页)](https://mp.weixin.qq.com/s/0aAIDtA3Q-G9weVuJh1cqw) 160 | ## 2023-02-17 161 | * [AIGC:内容生产力的革命-Web3.0系列专题研究之一](https://mp.weixin.qq.com/s/FZasm1G846dhgqMEyLmvrQ) 162 | * [ChatGPT打响AI算力军备战:AIGC行业深度报告](https://mp.weixin.qq.com/s/5FDZR1p-lNQU2yRAgroLdA) 163 | * [AIGC:拐点时刻](https://mp.weixin.qq.com/s/_ROVStl4fR2F4yUIvQ0Ybw) 164 | ## 2023-02-16 165 | * [AIGC专题二:ChatGPT更懂人类的叙事](https://mp.weixin.qq.com/s/7_uUoSiPFPbbLghq2neWYA) 166 | * [2022中国大模型发展白皮书](https://mp.weixin.qq.com/s/ah_EYNT5rVRhasDN28ne3A) 167 | * [论ChatGPT大语言模型在教育中的机遇与挑战](https://mp.weixin.qq.com/s/yJ3sK2iDDfjNioPGwqijAg) 168 | ## 2023-02-15 169 | * [使用PyTorch复现ChatGPT](https://mp.weixin.qq.com/s/gSqG9SZ84HJlh2GND_IRMg) 170 | * [ChatGPT研究框架:AIGC算力时代系列报告](https://mp.weixin.qq.com/s/E65E8Jrl3sGvh_aEXqwQjQ) 171 | ## 2023-02-14 172 | * [人工智能行业从CHAT_GPT到生成式AI:人工智能新范式,重新定义生产力](https://mp.weixin.qq.com/s/saKZ1pc-vgas4iPQKyXhLw) 173 | * [AIGC专题一:探析AIGC的技术发展和应用](https://mp.weixin.qq.com/s/7ELOWj4cXLSPcw054L6jKg) 174 | ## 2023-02-13 175 | * [ChatGPT怎么用最新详细教程](https://mp.weixin.qq.com/s/UOTsgtMo5HGARl5RKk1DPQ) 176 | * [中文预训练模型研究进展](https://mp.weixin.qq.com/s/wbZ6nfKe6HG7aoO_rwAzWA) 177 | * [自然语言生成综述](https://mp.weixin.qq.com/s/deBe_c4Ro1nKXqjt4SMvlg) 178 | * [知识增强预训练语言模型:全面综述](https://mp.weixin.qq.com/s/Im2yxZzaq3MyoT1rf2YwvQ) 179 | * [因果机器学习的前沿进展综述](https://mp.weixin.qq.com/s/wFwj7OGPgS4KC8lih_6E3w) 180 | ## 2023-02-12 181 | * [ChatGPT研究框架2023](https://mp.weixin.qq.com/s/s-2QAVSidw6RJnvHMt33QA) 182 | * [参与ChatRWKV项目,做开源ChatGPT](https://mp.weixin.qq.com/s/zoHYNrQH-GaKlCw65iShFg) 183 | * [ChatGPT使用速查](https://mp.weixin.qq.com/s/03azTjXmuMwrAUMoVFpiTA) 184 | ## 2023-02-11 185 | * [中文的GPT2训练代码GPT2-Chinese](https://mp.weixin.qq.com/s/UqCw2tDsf3eTDiPRzwRr2A) 186 | * [ChatGPT发展历程、原理、技术架构详解和产业未来](https://mp.weixin.qq.com/s/k8uMHHgU_xGvL4BQzVMv6w) 187 | * [ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习](https://mp.weixin.qq.com/s/Q10GbSI9NfxZitV_CcGJ7g) 188 | * [ChatGPT(可能)是怎么炼成的-GPT社会化的过程(李宏毅)](https://mp.weixin.qq.com/s/h9RZHJpDItVFhqOInWBAqQ) 189 | ## 2023-02-10 190 | * [ChatGPT:开启AI新纪元](https://mp.weixin.qq.com/s/03LrxlBDT8huUTwoCucT0g) 191 | * [ChatGPT:重新定义搜索入口](https://mp.weixin.qq.com/s/zyw5Q7GvzKcsUn0FJE1WjQ) 192 | * [ChatGPT引领AI新浪潮,AIGC商业化启](https://mp.weixin.qq.com/s/qJkaEhsg0ODJGYJhmUIPXg) 193 | * [海外ChatGPT专题](https://mp.weixin.qq.com/s/lBFt1VjuuxQPTK5PhCL_yw) 194 | ## 2023-02-09 195 | * [从ChatGPT到生成式AI](https://mp.weixin.qq.com/s/X-zok_XPDHeuwvvE5LQ8KA) 196 | ## 2023-02-08 197 | * [ChatGPT资料汇总](https://mp.weixin.qq.com/s/T6rfoAPeYnVmaYQAPKbqbQ) 198 | ## 2023-02-07 199 | * [Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-2](https://mp.weixin.qq.com/s/CqOPe37BrzpWm4ZS6b5dXg) 200 | ## 2023-02-05 201 | * [ChatYuan: 元语功能型对话大模型](https://mp.weixin.qq.com/s/wFZOkNv4IOJBCrsXxBg3ZQ) 202 | * [Transformer高效训练综述](https://mp.weixin.qq.com/s/vwB15-cLxltZJCHs9_is4A) 203 | ## 2023-02-04 204 | * [使用ChatGPT搭建微信聊天机器人](https://mp.weixin.qq.com/s/I9vag9MpPhoe0jGup-FQLw) 205 | * [从零基础到训练GPT](https://mp.weixin.qq.com/s/5dTVOKe1WWyXvK8YQ5oNDA) 206 | 207 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/机器学习研究组订阅.md: -------------------------------------------------------------------------------- 1 | # 机器学习研究组订阅 2 | 3 | 4 | 5 | ## 2023-03-05 6 | 7 | - [ChatGPT启示录!OpenAI街尾这家博物馆,展示人类毁灭未来](https://mp.weixin.qq.com/s/46z2jONwHizShvvX2pYZXA) 8 | 9 | - [Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星](https://mp.weixin.qq.com/s/OWqB4161UXvmIF15-6_ZWg) 10 | 11 | ## 2023-03-04 12 | 13 | - [Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了](https://mp.weixin.qq.com/s/-wTcnXls1CvfV-wOIWZqoA) 14 | 15 | - [突破100万用户!华人本科生最强AI检测器GPTZero:美国宪法是AI写的](https://mp.weixin.qq.com/s/v1U80W7eSndDN703cNcRNw) 16 | 17 | ## 2023-03-02 18 | 19 | - [终于,OpenAI开放ChatGPT API,成本直降90%,百万token才2美元](https://mp.weixin.qq.com/s/qsCzly-jbwYUU2uYrxkMmw) 20 | 21 | ## 2023-03-01 22 | 23 | - [ChatGPT版Excel?北大ChatExcel动动嘴皮子就把表格改完了](https://mp.weixin.qq.com/s/ezfrkS9xZx9Be3N1zsitYg) 24 | 25 | - [微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务](https://mp.weixin.qq.com/s/sISJBCfEd2ETTwWym6CdNA) 26 | 27 | ## 2023-02-28 28 | 29 | - [虽迟但到,Meta宣布成立AIGC产品研发组](https://mp.weixin.qq.com/s/LHwzI1MAQaGCYhEXyUTdPg) 30 | 31 | - [ChatGPT到底如何work的?最新《大型语言模型》综述,51页slides](https://mp.weixin.qq.com/s/89FZxBaRPZIWLK-8P5tBqQ) 32 | 33 | ## 2023-02-27 34 | 35 | - [ChatGPT之父提新版摩尔定律!宇宙智能数量每18个月翻一番](https://mp.weixin.qq.com/s/wY7iOMiwxon_3JesWPsIWA) 36 | 37 | - [学习ChatGPT,AI绘画引入人类反馈会怎样?](https://mp.weixin.qq.com/s/xQb6g5oDTfUaOkxMudtyeg) 38 | 39 | - [当我还在和ChatGPT聊天,有人已经开始用它来控制机器人干活了](https://mp.weixin.qq.com/s/Im_y4Tef7hqz0w1SF7QnFg) 40 | 41 | ## 2023-02-26 42 | 43 | - [ChatGPT掀智力革命!OpenAI发布AGI路线图,最终通向超级智能世界](https://mp.weixin.qq.com/s/LRKVE6lcRph8tLe35s-00w) 44 | 45 | ## 2023-02-25 46 | 47 | - [这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3](https://mp.weixin.qq.com/s/wzDyNHKHoQjwLeuNtheAuQ) 48 | - [ChatGPT登上Time封面!这场竞赛,OpenAI赌赢了](https://mp.weixin.qq.com/s/_yVzWHzCPOuLZvXLuHv7QA) 49 | - [OpenAI发布通用人工智能路线图:AGI比想象中来得更快](https://mp.weixin.qq.com/s/wmWkYCAj00OG7bTxhqpXCw) 50 | 51 | ## 2023-02-24 52 | 53 | - [ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」](https://mp.weixin.qq.com/s/kJuozNfDz0kkiWYNzjsYKw) 54 | 55 | ## 2023-02-22 56 | 57 | - [3死5伤,美枪击案致中国留学生瘫痪,这所大学竟自曝用ChatGPT写悼文!](https://mp.weixin.qq.com/s/FeWVWr4Q-xmpZYq_-YPJgw) 58 | - [ChatGPT火爆,最全prompt工程指南登GitHub热榜,标星4.7k!](https://mp.weixin.qq.com/s/dRdpwkmDO6chpJTR7sURnQ) 59 | - [跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了](https://mp.weixin.qq.com/s/qQXTH3FNhC_CovLr2OweOA) 60 | 61 | ## 2023-02-21 62 | 63 | - [ChatGPT国产化:ChatYuan元语对话大模型升级](https://mp.weixin.qq.com/s/gQAxnYQv6q_gR9D_PIso8A) 64 | 65 | ## 2023-02-20 66 | 67 | - [为什么所有GPT-3复现都失败了?使用ChatGPT你应该知道这些](https://mp.weixin.qq.com/s/E9L9BD13NHYlzvZWSLOlUg) 68 | 69 | - [AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用](https://mp.weixin.qq.com/s/qkMwtkUnUev_MzTVjtECEQ) 70 | 71 | ## 2023-02-19 72 | 73 | * [必应版ChatGPT内测资格海量发放!知乎大佬:别作死,就很强](https://mp.weixin.qq.com/s/CCXxFaxekuOqRoaHnQkp7w) 74 | * [全面碾压AdamW!谷歌新出优化器内存小、效率高,网友:训练GPT 2果然快](https://mp.weixin.qq.com/s/8c62q5QzvjSeTn4_x8wxHQ) 75 | ## 2023-02-16 76 | * [篡位者OpenAI偷家谷歌,CEO怒发Bard调教指南:别慌,咱向来是弯道超车](https://mp.weixin.qq.com/s/QHWb5OdngLapTsrbfdPstw) 77 | * [ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿](https://mp.weixin.qq.com/s/HiZklrYFrJBvlr63DwilKw) 78 | * [被ChatGPT带飞的AIGC,能为垂直产业做些什么?](https://mp.weixin.qq.com/s/WNnegqUnfzyQDevPGYpLNQ) 79 | ## 2023-02-15 80 | * [找到了一篇介绍ChatGPT核心技术的论文](https://mp.weixin.qq.com/s/M9S70QeDE1pWIptf_PggLw) 81 | * [开源方案复现ChatGPT流程!1.62GB显存即可体验,单机训练提速7.73倍](https://mp.weixin.qq.com/s/K-bxphYN_yfPgYdQs1hjag) 82 | * [ChatGPT真的是「通才」吗?杨笛一等人给它来了个摸底考试](https://mp.weixin.qq.com/s/ou0fkUY3G6diuQ1ruzqewA) 83 | ## 2023-02-14 84 | * [必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?](https://mp.weixin.qq.com/s/W9Vb35dteDeOwJXaWEBRAg) 85 | * [看完ChatGPT的回答,AI大佬们不满了](https://mp.weixin.qq.com/s/dqkeDDrGWUH-CmJF3hiumQ) 86 | * [情人节也是假的!全球30%男性打算用ChatGPT写情书了](https://mp.weixin.qq.com/s/9XEKwDNXZ1Fw0Mz33qk9nQ) 87 | ## 2023-02-13 88 | * [别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出](https://mp.weixin.qq.com/s/-oKrFBVY-dp7wE77a_9R6Q) 89 | * [微软内战打响,ChatGPT对决新必应!13个灵魂拷问,新老AI各有所长](https://mp.weixin.qq.com/s/Idr8h-UL4fGP6Z05N0KXIQ) 90 | ## 2023-02-12 91 | * [Opera跟进引入ChatGPT,侧边栏生成文章简短摘要](https://mp.weixin.qq.com/s/UoZ4fnblb59J8Kr9Vr2umQ) 92 | * [Nature|ChatGPT和生成式AI对科学意味着什么?](https://mp.weixin.qq.com/s/hNLzumBKkjJYM8MXxMCRjw) 93 | * [开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了](https://mp.weixin.qq.com/s/76y-9nQzno9qkB1KX0LrDQ) 94 | ## 2023-02-11 95 | * [因为自家ChatGPT,谷歌「内讧」了](https://mp.weixin.qq.com/s/TSzSQv7yecLtrgcZbcONBA) 96 | ## 2023-02-10 97 | * [不出所料,自动驾驶向ChatGPT下手了!](https://mp.weixin.qq.com/s/XB-qKe2okv00GTn9pv9uUQ) 98 | * [我给AI打工!ChatGPT负责创作漫画,我负责画出来,居然搞出超现实主义?](https://mp.weixin.qq.com/s/VYDJh_PJoPJi4UcYab-2Yw) 99 | ## 2023-02-09 100 | * [谷歌版ChatGPT首秀,第一个Demo就大翻车,市值暴跌7000亿](https://mp.weixin.qq.com/s/4kM2qMi-z0ehTp2Ox4blHw) 101 | ## 2023-02-08 102 | * [今天,微软重新发明搜索引擎:首款ChatGPT搜索来了](https://mp.weixin.qq.com/s/xRhBPjJUEnkdh_bY_-5fnw) 103 | * [用ChatGPT写论文靠谱吗?有学者试了一下:漏洞百出,但是个注水的「好」工具](https://mp.weixin.qq.com/s/EsvVZ3Ziqix8_bm29Ncr1A) 104 | ## 2023-02-07 105 | * [挑战ChatGPT,谷歌正式发布Bard,CEO亲自下场邀请测试](https://mp.weixin.qq.com/s/J7GO_XSRt1v9vkr2AB4ebA) 106 | * [危!ChatGPT一出,这10大职业可能先丢饭碗](https://mp.weixin.qq.com/s/1Z93J8KL9LmFwV2sKV62FQ) 107 | ## 2023-02-06 108 | * [ChatGPT版必应搜索悄悄上线又下线,但评测已经出炉](https://mp.weixin.qq.com/s/yWU1lw4enyGbrW0yh1GYhg) 109 | * [ChatGPT黑化太可怕!化身硅谷资本家,学大厂CEO裁人不眨眼](https://mp.weixin.qq.com/s/k1VPv2xh32bN35YBiOzwZg) 110 | * [再记公式弱爆了!用ChatGPT处理Excel问题,效率狂升](https://mp.weixin.qq.com/s/2GJRzlK5PeAQ6FC0bU3c7g) 111 | ## 2023-02-05 112 | * [超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列](https://mp.weixin.qq.com/s/3MxVk2BRuDE6My7o0BbGFw) 113 | * [谷歌抢先手发布视频生成类AIGC,网友:可以定制电影了](https://mp.weixin.qq.com/s/kCKRva09ERvAgYso206dPQ) 114 | ## 2023-02-04 115 | * [18万美元offer!ChatGPT通过谷歌L3入职测试,人类码农危?](https://mp.weixin.qq.com/s/VsGssRfR0vh9PUx9tVJ7Jw) 116 | * [ChatGPT原班人马成立的公司,被谷歌紧急投了4亿美元](https://mp.weixin.qq.com/s/jbVpW4DLeFLwCuGwAKCeog) 117 | * [ChatGPT加入必应了,亲测可用!刚上线,就被微软紧急撤了](https://mp.weixin.qq.com/s/NcbgF3khjl2LUeS7A5YQ3A) 118 | ## 2023-02-03 119 | * [史上增速最快消费级应用,ChatGPT月活用户突破1亿](https://mp.weixin.qq.com/s/9O-CjHTOlS_pqSupqTgszw) 120 | * [写邮件、算KPI、做会议纪要:ChatGPT落地第一站,利好打工人?](https://mp.weixin.qq.com/s/rZt8GnoEs4dQ7v0MRYD4Xw) 121 | ## 2023-02-02 122 | * [被OpenAI CEO取关后,Yann LeCun再次抨击:ChatGPT对现实的把握非常肤浅](https://mp.weixin.qq.com/s/5XDF-2KsFu_9fhPYJsY37A) 123 | * [ChatGPT收费版真来了!每月134元告别排队卡顿,免费的还在,网友:蹲个「青春版」](https://mp.weixin.qq.com/s/ozekItuFYuKPOmIWKobjvg) 124 | * [谷歌最高优先级项目曝光:下一代AI搜索,誓要打败ChatGPT](https://mp.weixin.qq.com/s/AfsXBWinZ19JyimUQdEYsQ) 125 | ## 2023-02-01 126 | * [OpenAI官方推出AI生成内容识别器,但成功率只有26%,网友:还不如论文查重工具](https://mp.weixin.qq.com/s/wu_WRFQD61wjCaM6J722Ww) 127 | * [清北微软深挖GPT,把上下文学习整明白了!和微调基本一致,只是参数没变而已](https://mp.weixin.qq.com/s/LCfwYutanV3K6RXABTGrUw) 128 | * [ChatGPT化身政治说客:帮企业判断是否受政府新法案影响,甚至写信建议修改立法](https://mp.weixin.qq.com/s/6Fly2lzQj5er9IrOeh7ZAQ) 129 | ## 2023-01-31 130 | * [刚刚,ChatGPT官宣数学能力再升级,网友:终于精通十以内加减法了](https://mp.weixin.qq.com/s/LiEc6W9JDe0JlOtLVcPxEQ) 131 | ## 2023-01-30 132 | * [ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好](https://mp.weixin.qq.com/s/_3i2pSrwF-Xx9nknpRGJAg) 133 | ## 2023-01-29 134 | * [学生用ChatGPT拿下全班最高分,教授惊呆!全美高校打响AI反击战](https://mp.weixin.qq.com/s/dR-iR_puEmRhr_LdaRX1xA) 135 | ## 2023-01-27 136 | * [为啥ChatGPT让LeCun酸成柠檬精?谷歌、Meta、OpenAI聊天机器人大PK!](https://mp.weixin.qq.com/s/vYXQPiX7N2MJ-1-z2qq-XQ) 137 | * [理工科神器Wolfram|Alpha注入超强计算知识,补足ChatGPT短板](https://mp.weixin.qq.com/s/NGFHLv3i0OBT9Ggfk_Ltxw) 138 | ## 2023-01-26 139 | * [Nature给学术界立规矩:ChatGPT等大模型不可以成为作者](https://mp.weixin.qq.com/s/Jbaaq23EvxWuA-btZ2OjZg) 140 | * [Yann LeCun:ChatGPT缺乏创新,没什么革命性;网友:早点离开Meta做出点突破吧](https://mp.weixin.qq.com/s/5-4OKbGiyzgc_G44S8LnMA) 141 | ## 2023-01-22 142 | * [微软元宇宙「大撤退」,VR/AR多个团队原地解散!全心押宝ChatGPT](https://mp.weixin.qq.com/s/bR9XEiAVKEGacDC_9d6PEg) 143 | * [ChatGPT推出收费版!每月285元,「白嫖党」 还能happy多久?](https://mp.weixin.qq.com/s/ur_DXbbgLzjeODwVXsiwaA) 144 | * [ChatGPT背后的标注人:在非洲只管「鉴黄」,时薪不到两美元](https://mp.weixin.qq.com/s/v3hAUuJ_oZCLXav9zHfaXg) 145 | ## 2023-01-19 146 | * [超详超硬Jeff Dean万字总结火热出炉!图解谷歌2022年AIGC、LLM、CV三大领域成就](https://mp.weixin.qq.com/s/ccZUW8P1P9a-SMQrZ-_UMQ) 147 | ## 2023-01-18 148 | * [微软杀疯了!全家桶嵌入ChatGPT,云平台Azure强到发指](https://mp.weixin.qq.com/s/7PwPGOLz0scBRerZI_Ejmg) 149 | ## 2023-01-16 150 | * [大学生用GPT-3写论文遭处罚!ChatGPT或引发学术圈大地震...](https://mp.weixin.qq.com/s/r_kwye8RYCs7nwPk2P6bhA) 151 | ## 2023-01-15 152 | * [剽窃、作弊,ChatGPT竟偷偷生成了12篇署名论文!Marcus炮轰Ta变成CheatGPT](https://mp.weixin.qq.com/s/sSKruWSYVt_CgqTjn4SX5w) 153 | ## 2023-01-13 154 | * [我用ChatGPT写神经网络:一字不改,结果竟然很好用](https://mp.weixin.qq.com/s/G4wmBIH_fuw4cdc-dGt74A) 155 | ## 2023-01-12 156 | * [AIGC加持游戏剧情,无限故事的游戏交互体验来了](https://mp.weixin.qq.com/s/3quJyUh2tB99unPFRybXNA) 157 | ## 2023-01-11 158 | * [ChatGPT作弊成风引担忧,OpenAI:正在自研审核工具](https://mp.weixin.qq.com/s/GNQEsG78PyJjmCz_ZFaibw) 159 | ## 2023-01-09 160 | * [把代码贴进去自动找bug,这个debug神器自动修复仅需几秒,还有GPT-3在线解惑](https://mp.weixin.qq.com/s/nv_VJJ6zImJxcSRrl1YwhA) 161 | ## 2023-01-06 162 | * [ChatGPT封杀潮,禁入学校,AI顶会特意改规则,LeCun:要不咱把小模型也禁了?](https://mp.weixin.qq.com/s/3hDTngRPPQP0-VBA4G0ogQ) 163 | * [真·没病聊两句?ChatGPT跟人类聊一下,就能识别老年痴呆,准确率80%](https://mp.weixin.qq.com/s/G3tPXN9O3RUrBgZpoRmQmA) 164 | ## 2023-01-05 165 | * [百度研究院发布2023年十大科技趋势,锚定「AI向实」:行业大模型生态初现,自动驾驶、AIGC、量子科技等智能化创新更加务实](https://mp.weixin.qq.com/s/zkzDogwEt1-icIaorhaKJA) 166 | * [推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA](https://mp.weixin.qq.com/s/wAqjMww5P0eKX5r3uURt_Q) 167 | ## 2023-01-04 168 | * [ChatGPT背后的开源AI框架Ray,现在值10亿美元](https://mp.weixin.qq.com/s/OL_Vqip0mvVhxiuB1mnf_w) 169 | ## 2023-01-01 170 | * [2023年第一天,请查收ChatGPT的年终总结!](https://mp.weixin.qq.com/s/A_lbcZyOzQfzt3J9exIt4g) 171 | 172 | -------------------------------------------------------------------------------- /ChatGPT/Blog/ChatGPT_Technology/ChatGPT_Inference_Cost.md: -------------------------------------------------------------------------------- 1 | # ChatGPT Inference Cost 2 | 3 | 原文地址: https://www.semianalysis.com/p/the-inference-cost-of-search-disruption 4 | 5 | OpenAI推出的ChatGPT风靡全球,仅在一月份就迅速积累了超1亿活跃用户 ,成为史上用户增长最快的应用程序。在此之前,Instagram花了30个月才跨过1亿用户门槛,TikTok用了9个月。每个人最关心的问题是大型语言模型(LLM)对搜索的破坏性有多大。微软此前宣布了一条震惊世界的消息:OpenAI的技术将整合到Bing搜索引擎中。 6 | 7 | > New Bing会让谷歌坐立不安,我想让大众知道我们正是让谷歌按捺不住的助推器。——Satya Nadella,微软CEO 8 | 9 | 谷歌近来的举动让大众觉得他们正“焦躁不安”。虽然我们相信谷歌拥有世界上最好的模型和最先进的AI专业知识,但长期以来,他们却没能将自身的领先优势变现。而来自微软和OpenAI的竞争压力正在迅速改变这一情形。 10 | 11 | 给搜索领域带来颠覆和创新需要投入资金,而训练LLM的成本很高。**更重要的是,不管以何种合理的规模部署模型,其推理成本都远超训练成本。** 12 | 13 | 实际上,每周推理ChatGPT的成本都超过了其训练成本。目前ChatGPT每天的推理成本为700,000美元。**如果直接将当前的ChatGPT集成到谷歌的每次搜索当中,那么谷歌的搜索成本将大幅上升,达到360亿美元。谷歌服务业务部门的年净收入将从2022年的555亿美元下降至195亿美元。若将“类ChatGPT”的LLM部署到搜索中,则意味着谷歌要将300亿美元的利润转移到计算成本上。** 14 | 15 | 当然,这种情况永远不会发生,在软件/硬件方面改进之前,这只会是一种有趣的假设。 16 | 17 | ## **1、搜索业务** 18 | 19 | 首先来看一下搜索市场的情况。据调查,谷歌每秒运行的搜索查询约为32万次,而谷歌的搜索业务部门在2022年的收入为1624.5亿美元,每次查询的平均收入为1.61美分。谷歌必须为计算和网络搜索、广告、网络爬行、模型开发、员工等支付大量开销。在谷歌的成本结构中,一个值得注意的项目是:为了成为Apple产品的默认搜索引擎,他们支付了约200亿美元。 20 | 21 | 谷歌服务业务部门的营运利润率(operating margin)为34.15%。如果我们为每次查询分配COGS/运营费用,那么每次搜索查询的成本为1.06美分,产生的收入为1.61美分。**这意味着,基于LLM的单次搜索查询费用必须低于0.5美分,否则搜索业务对谷歌来说将毫无利润可言。** 22 | 23 | > New Bing将融合一款新的下一代OpenAI大型语言模型。该模型针对搜索业务进行了定制,汲取了ChatGPT和GPT-3.5的重要经验和成果,速度更快、更准确且功能更强大。——微软 24 | 25 | ## **2、ChatGPT的成本** 26 | 27 | 由于有部分未知变量,所以估算ChatGPT的成本是一个棘手问题。我们建立了一个成本模型,模型显示ChatGPT在计算硬件方面的每日运营成本为694,444美元。为维持ChatGPT的运行,OpenAI需要约3,617台HGX A100服务器(28,936个GPU),预估每次查询的成本为0.36美分。 28 | 29 | 我们的成本模型是在每次推理的基础上从头开始构建的,但它与Sam Altman推文和他最近所做采访所做的介绍一致。 30 | 31 | 我们假设OpenAI使用了GPT-3密集模型架构,这个架构的参数大小为1750亿、隐藏维度为1.6万、序列长度为4000、每个响应的平均token数为2000、每个用户响应15次、有1300万日活跃用户、浮点运算(FLOPS)利用率比FasterTransformer高2倍且延迟小于2000毫秒,int8量化,纯闲置时间占用50%的硬件利用率,并且每个GPU每小时成本为1美元。如有不同意见,欢迎指出。虽然我们相信我们处于正确的区间内,但很乐意使其更加精准。 32 | 33 | ## **3、使用ChatGPT的搜索成本** 34 | 35 | 如果ChatGPT被整合到谷歌现有的搜索业务中,那么其影响将是毁灭性的。谷歌的营收将减少360亿美元。以下是LLM的360亿美元推理成本。 36 | 37 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWogDrl2v9FebuicPJMzr3YA3WoibLepibicGicVK5XURbHBDYvAiaibqzibI3oxwYulXveicjkGfbfIHjMib3iaw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 38 | 39 | 若想将当前的ChatGPT部署到谷歌搜索,则需要512,820.51台A100 HGX服务器和共计4,102,568个A100 GPU。**在这些服务器和网络的总成本中,仅资本支出就超过1000亿美元,其中大部分资金将流向英伟达。**当然,这永远不会发生(但如果我们假设没有任何软硬件改进的话,可以将其当成一次有趣的思想实验)。使用谷歌的TPUv4和v5在订阅者部分建模也有不同的推理成本,同时我们还有一些H100 LLM推理性能方面的改进数据。 40 | 41 | 令人惊讶的是,微软知道将LLM融入搜索会摧毁搜索的盈利能力,并需要大量的资本支出。尽管我们估算了营业利润的变动,但还是来看看萨提亚·纳德拉(Satya Nadella)对毛利率的看法吧。 42 | 43 | > 从现在开始,搜索的[毛利率]将一直呈下降趋势。——Satya Nadella, 微软CEO 44 | 45 | 搜索毛利率下降已成既定事实,更不用说随着搜索质量的提高,搜索量可能会有所减少,我们难以在大型语言模型的响应中植入广告,以及稍后本报告会讨论的其他众多技术问题。 46 | 47 | **微软正在不遗余力地摧毁搜索市场的盈利能力。** 48 | 49 | > 在搜索广告市场中,每增加一个百分点的份额,我们的广告业务就有可能获得20亿美元的收入。——微软 50 | 51 | 必应的市场份额很小,但微软抓住的任何份额增长都将给他们带来巨大收益。 52 | 53 | > 我认为我们双方都会受益匪浅。我们将逐步发掘出这些大模型的潜能,但如果搜索业务被垄断,发展停滞不前,在这种情况下如何从搜索和广告中营利都会是一个问题,并且我们还要应对可能出现的短暂下行压力,这种情况是我所不愿看到的。 54 | 55 | > 大模型的发展潜力巨大,难以想象我们不知道该如何利用它们来发家致富。——OpenAI CEO Sam Altman 56 | 57 | 与此同时,在这场竞争中,谷歌正处于劣势地位。如果谷歌的搜索市场地位被动摇,那么它的利润将受到极大的影响。搜索市场份额丢失所带来的影响可能会比上面分析的更加糟糕,因为谷歌的运营成本非常高。 58 | 59 | ## **4、谷歌的应对措施** 60 | 61 | 对此,谷歌并没有坐以待毙。在ChatGPT发布短短几个月之后,谷歌就紧随其后向公众推出了集成LLM的搜索版本。就目前我们所看到的,微软的New Bing和新版谷歌搜索各有优劣。 62 | 63 | 集成了ChatGPT的New Bing搜索引擎在LLM功能方面似乎更加强大。谷歌在搜索准确性方面存在问题,甚至在Bard的演示中也出现了这种问题。但是在响应时间方面,谷歌的Bard可以直接碾压Bing GPT。这些模型响应时间和搜索质量方面的差异与模型大小直接相关。 64 | 65 | > Bard将世界知识的广度与大型语言模型的力量、智慧和创造力相结合,并利用网络提供及时、优质的回答。谷歌Bard由LaMDA轻量级模型版本提供支撑,这种小型模型需要的算力更少,可以辐射到更多用户,获得更多反馈。——谷歌 66 | 67 | 谷歌正通过部署轻量级模型来争取更大的利润空间。他们本可以部署全尺寸大小的LaMDA模型或功能更强、更大的PaLM模型,但是他们没有这样做,反而选择了LaMDA轻量级模型。 68 | 69 | **对于谷歌来说,这是一种必然选择。** 70 | 71 | 谷歌无法将这些庞大的模型部署到搜索当中,因为这会大大降低毛利率。稍后我们会详细讨论LaMDA的轻量级版本,但重要的是,我们要意识到Bard的时延优势是其竞争力之一。 72 | 73 | 谷歌的搜索收入来自广告,不同的用户在搜索时会给谷歌带来不同的收益。相比印度男性农民,美国郊区女性平均每个目标广告所带来的收益要高得多,这也意味着不同用户会带来截然不同的营业利润率。 74 | 75 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWogDrl2v9FebuicPJMzr3YA3ITyYdfWdTYmjCf2BMUqo0ptkCG9TK2eibBNZ9AQVF2gGwjibkibvHCGtA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 76 | 77 | ## **5、LLM在搜索中的发展** 78 | 79 | **将LLM直接融入搜索并不是改进搜索的唯一方法。**多年来,谷歌一直在搜索中使用语言模型来生成embeddings。这种方法可以在不增加推理成本预算的基础上,改善最常见的搜索结果,因为这些embeddings可以一次生成,供多个搜索结果使用。 80 | 81 | 相比ChatGPT拥有的2000个Token输出总数,从Bing GPT的84个不同的实例来看,Bing GPT约为350个Token的输出总数明显较少。多数情况下,人们在搜索时不愿阅读大量繁琐的信息。此估算考虑了未向用户展示的token。 82 | 83 | 后续优化是实现前2000个关键词占搜索量的12.2%,其余的则是纯导航性搜索(purely navigational searches)。假设20%的搜索不需要LLM。最后,相比使用基于NVIDIA的HGX A100的Microsoft/OpenAI,谷歌使用内部TPUv4 pod的基础设施优势更明显。 84 | 85 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWogDrl2v9FebuicPJMzr3YA3GZZLFzTXPXetsTdCV2NdiaMibE1Mdewicekl1FISIuQbenxKfPCwhKiayQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 86 | 87 | 这些简单的优化可以让谷歌以仅30亿美元的额外成本将LLM部署到搜索当中。如果一切从一开始就完美设置,那么谷歌单在硬件上的支出成本就约为200亿美元,其中包括数据中心基础设施。这是在NVIDIA H100和谷歌的TPU v5等新硬件或MoE、稀疏性、剪枝、模型蒸馏、kv缓存和提前退出机制(early exit)等各种技术成本增加之前的情况。 88 | 89 | 人们不会接受连接到互联网的ChatGPT接口。因为运行速度很慢、容易编造虚假信息、并且无法有效变现。不过上述分析仍然过于简单化。 90 | 91 | 由于用户体验发生了转变,单位收入经济学(unit revenue economics)和成本结构将在未来2到3年内迅速改变,实现完全重构。 92 | 93 | 如果要从收入和成本方面更深入地了解这一变化,那么我们首先要搞清当前的搜索架构,因为它是未来变化的基础。 94 | 95 | 从较高的层面来看,搜索的目标是尽快提供相关信息。用户输入关键词时,搜索结果最好要按照优劣从上到下排列。搜索工作流(search pipeline)主要有四个进程:爬虫、索引、查询处理器和广告引擎。机器学习模型早已渗透进这四个领域。 96 | 97 | ### **爬虫** 98 | 99 | 爬虫会自动定位互联网上的新内容,这些内容包括网页、图像和视频,然后它会将这些内容添加到搜索引擎的数据库(索引)中。通过机器学习,爬虫能够确定要索引页面的价值并识别其中的重复内容。它还能分析页面之间的链接,评估哪些页面可能相关且重要,这些信息会被用于优化抓取过程,确定抓取内容、频率和程度。 100 | 101 | 爬虫在内容提取方面也起着重要作用。它的目标是实现网页爬取内容的全面文本化,同时使数据总量最小化,以确保搜索的速度和准确度。时延(latency)对于搜索来说至关重要,即使是几百毫秒的变化,也会极大地影响用户搜索量。 102 | 103 | 谷歌和Bing利用图像和小型语言模型来生成在页面/图像/视频中并不存在的元数据。大规模扩展这些功能是将大型语言模型和多模态模型融入搜索的突破点,目前所有简单的搜索成本模型都没有考虑到这一点。 104 | 105 | ### **索引** 106 | 107 | 索引是一个用于存储爬取信息的数据库。在索引层中可以进行大量预处理,以最小化必要搜索的数据量。这最大限度地减少了时延,提高了搜索相关性(search relevance)。 108 | 109 | - **相关性排序**:可以使用模型基于相关性对索引中的页面进行排序,以便首先返回用户搜索查询最相关的页面。 110 | - **聚类**:可以使用模型将索引中的相似页面进行分组,让用户更容易地找到相关信息。 111 | - **异常检测**:模型可以检测索引并删除其异常页面或垃圾页面,进而提高搜索结果的质量。 112 | - **文本分类**:可以使用模型基于内容和上下文对索引中的页面进行分类。 113 | - **主题建模**:模型可以识别索引页面涵盖的主题,每个页面对应一个或多个主题。 114 | 115 | **虽然当前索引层是由较小的模型和DLRM完成,但如果插入LLM,搜索的有效性将会得到显著提高。**而其他简单搜索成本模型(model of search costs)都忽视了这一点。我们将在本报告的后面讨论用例并估算成本。 116 | 117 | ### **查询处理器** 118 | 119 | 查询处理器是搜索堆栈中最受关注的层,用于接收用户的查询并生成最相关的结果。首先需要解析用户的查询,再将其分解为关键字和短语,进而从索引中抓取最相关的项,然后对用户的特定查询进行重新排序及过滤。此外,查询处理器还负责将这些结果返回给用户。 120 | 121 | 目前在该工作流中部署了多个模型,从简单的拼写检查到自动向用户查询添加相关术语的查询扩展,以提高搜索结果准确性。根据用户的搜索历史、位置、设备、偏好及兴趣对结果进行相关性排序及个性化处理。不过当前要想实现这一点需要在多个小型模型上运行推理。 122 | 123 | 由于用户提交的是实时查询,因此必须快速高效地执行查询处理。相比之下,爬虫和索引是一个持续性的过程,且无需与用户进行交互。 124 | 125 | 此外,谷歌和Bing使用了迥然不同的硬件以实现其经典方法(classical approaches)。谷歌使用了大量标准化CPU和内部TPU,而Bing目前使用的是大量标准化CPU和FPGA,其FPGA加速了排序方法(Ranking)和AI。 126 | 127 | ### **广告引擎** 128 | 129 | 虽然搜索堆栈的最后三个部分是满足和留住用户的关键,但许多人认为广告引擎是最重要的,因为所有变现都源于广告引擎的质量。查询处理器与广告引擎是实时交互的,广告引擎必须对用户查询、用户档案、位置和广告效果(advertisement performance)之间的关系进行建模,为每个用户生成个性化的推荐,从而最大限度地提高点击率和收入。 130 | 131 | 广告市场是一个实时竞价的大市场,广告商通常在这里为关键词、短语或特定用户类型付费。因为支付的金额并非衡量服务的唯一标准,所以广告模型不再将其作为唯一准则。由于该模型需要优化转化率以获得收益并提高比率,因此搜索相关性是高度优化的参数。 132 | 133 | > 总体而言,过去4年,谷歌搜索结果的顶部页面有80%的结果没有任何广告。此外,目前只有一小部分(不到5%)的搜索中有四个排名靠前的文本广告。——谷歌 134 | 135 | 使用了LLM,消费者阅读到就不仅限于前几个结果,这些结果中的广告可以变成广告商的销路。相反,现在广告成为了LLM的输出。因此,随着对话LLM的问世,广告成了搜索堆栈中变化最大的一部分。我们将在本报告后半部分讨论变现的方式和变化,因为这是广告服务运作方式的根本转变。 136 | 137 | ## **6、根本性转变** 138 | 139 | **搜索中的LLM不单是一个融入搜索引擎界面的大模型。**相反,它是一个多模型融合的大模型,每个模型的任务是为整个链条中的下一个模型提供最密集、最相关的信息。 140 | 141 | 这些模型必须基于活跃用户进行不断重新训练、调整和测试。谷歌是首个在搜索堆栈的四个层中使用人工智能的企业,但如今搜索正在经历用户体验、使用模式和商业化结构的根本性转变,这可能会使许多软件堆栈的现有部分失效。 142 | 143 | 问题的关键在于谷歌能否胜任这项任务。在保护好自己“金蛋(golden egg)”的前提下,谷歌能调整其搜索堆栈吗? 144 | 145 | > 快速前行,打开局面。——马克 扎克伯格,2011 146 | 147 | 在弄清楚应用模式(usage models)之前,谷歌在超优化(hyper-optimize)其搜索堆栈方面是否有文化要求?假设谷歌以最低成本将过多资源投入运营中,并且达到了搜索相关性的局部最大值。 148 | 149 | **在这种情况下,谷歌可能会迷失方向,反而限制了本该用于扩展和测试新应用模式的模型发展和创新。相反,微软和OpenAI更具冒险精神,更可能大刀阔斧地对搜索堆栈的四个元素进行彻底改造。** 150 | 151 | 谷歌过于谨慎和过早优化的最明显例子就是研发Bard。 152 | 153 | > Bard将与LaMDA的轻量级版本一起发布。这个小得多的模型需要的算力更少,所以我们能将其扩展到更多的用户,从而获得更多的反馈。——谷歌 154 | 155 | 谷歌正在缩减(cut down)2021年初开发出来的一个模型。当然,从开发至今,该模型有所改进,但现在OpenAI和微软使用的是2022年底和2023年初开发出得更大的模型和更新的架构,并得到ChatGPT的持续反馈。所以谷歌所见所闻该模型情有可原,但这也可能会让谷歌在用户体验和迭代速度方面受到重创。 156 | 157 | 更令人担忧的是,在过去的几个月里,一些有远见卓识的人才(例如BERT的教父,PaLM推理的首席工程师和Jax的首席工程师)开始涌向初创公司,比如OpenAI。这可能是谷歌的文化弱化(weakening culture)的迹象。 158 | 159 | 想象一下,如果这场搜索竞争导致谷歌的股票持续下跌,而RSU(限制性股权)的价值远低于预期,这对员工的士气和忠诚度有何影响? 160 | 161 | 或者说,由于Bing要争夺市场份额,并抬高了谷歌目前拥有的苹果专属协议,搜索业务不再是无尽的摇钱树,那又会怎样?谷歌是否必须在运营包括谷歌 Cloud在内的亏损业务时勒紧裤腰带? 162 | 163 | ## **7、时延** 164 | 165 | 谷歌的Bard是一个较小的模型,时延响应时间较低。此外,谷歌内部还有一个非常优越的PaLM模型,但目前还无力部署。 166 | 167 | 即使时延为2,000毫秒(常规搜索的4倍,包括互联网时延和20倍的处理时间),PaLM也只能处理输入的60个token(约240个字符)和输出20个token(80个字符)。当在64个TPUv4上并行运行时,始终只达到约35%的利用率。 168 | 169 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWogDrl2v9FebuicPJMzr3YA3r6mz49L17DxMywIcWdPrD8kgXyqRZS1UciaIldvGz9yUyVMiaicJ8eVbw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 170 | 171 | 重要的是,LLM需要在搜索堆栈的非时间敏感部分(non-time-sensitive portions)使用。此外,虽然时延会更高,但batch size越大,在堆栈的这些部分实现的利用率就越高。 172 | 173 | 除了低时延标准,**序列长度增加(sequence length growth)也是将LLM融入搜索的最大挑战之一。** 174 | 175 | ## **8、Context至上** 176 | 177 | 面向用户的模型和未来AI芯片的关键在于增加它们的context window(上下文窗口),以便可以通过层(layer)向前传送更多先前模型或源材料。就推理成本而言,扩展序列长度的成本也非常高,这会扩大成本结构。 178 | 179 | 因此,在实时方面将围绕context window进行多种优化。在爬虫和索引阶段,可以最大化context window以尽可能地将源材料密集化,达到力所能及的高质量标准。 180 | 181 | 这样就可以在堆栈的实时查询部分启用更小的模型,以最大限度地减少搜索和context window的数量,从而减少时延并缩短响应时间。 182 | 183 | ## **9、整个搜索堆栈中的LLM实现** 184 | 185 | 看看微软如何以相同的方式应用这些技术为某些高级企业的搜索和对话式AI助手提供服务,用AI扫描过去30年中的每个文档、电子邮件、Excel工作表、PDF和即时消息,这也是一件很有趣的事。如何在运营和基础设施层面设想新的搜索堆栈也很重要。 186 | 187 | 当然,谷歌仍然拥有其Android、YouTube、地图、购物、航班和照片等业务模块,在这些领域微软几乎无法与之竞争。因此无论发生什么,这些业务模块都足以让谷歌在搜索领域维持领先地位。 -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/新智元.md: -------------------------------------------------------------------------------- 1 | # 新智元 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | []() 8 | 9 | []() 10 | 11 | []() 12 | 13 | []() 14 | 15 | []() 16 | 17 | ## 2023-03-19 18 | 19 | - [孔乙己终结者!GPT-4拿100美元自创业,还要让马斯克下岗](https://mp.weixin.qq.com/s/npduP_Rr5sngZudWTFoYbw) 20 | 21 | - [GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型](https://mp.weixin.qq.com/s/vhGUZlwsUqSN4zoA5mNEiw) 22 | 23 | - [GPT-4发现LeCun「小秘密」,一大波测评来袭:别问我是谁,我是GPT-3!](https://mp.weixin.qq.com/s/2wocdKsH6CoQ20agQT_cUA) 24 | 25 | ## 2023-03-18 26 | 27 | - [AI画手会画手了!Stable Diffusion学会想象,卷趴人类提示工程师](https://mp.weixin.qq.com/s/EXw_9ssS5f6VA32IXfWMcQ) 28 | 29 | - [Claude生不逢时!谷歌想扶持自己的OpenAI实在太难了](https://mp.weixin.qq.com/s/odF9IXVeEa-P3E-1QKl2pw) 30 | 31 | - [张宏江:大模型发展机会与挑战](https://mp.weixin.qq.com/s/pjUaRD0YV2qb6MXZ-oVstQ) 32 | 33 | ## 2023-03-17 34 | 35 | - [微软深夜放炸弹!GPT-4 Office全家桶发布,10亿打工人被革命](https://mp.weixin.qq.com/s/YgiurOE0uZ7lRDx1ehpbhQ) 36 | 37 | - [对打GPT-4,文心一言抢先实测!画「林黛玉倒拔垂杨柳」很惊艳,但写代码不大行](https://mp.weixin.qq.com/s/VudkXw5dmjDtCewCtFSM-w) 38 | 39 | - [田渊栋:关于GPT-4的一些感想](https://mp.weixin.qq.com/s/UYOafgG0xUAPdoPl4lTL_g) 40 | 41 | ## 2023-03-16 42 | 43 | - [ChatGPT全球赛开场,李彦宏已无退路,百度文心一言今日正式开始邀请测试!](https://mp.weixin.qq.com/s/QMBG-R5AcG4cxj7xFVFwIg) 44 | 45 | - [向微软宣战!谷歌类ChatGPT装进办公「全家桶」,升级版Big Bard加急测试](https://mp.weixin.qq.com/s/3JI6FW8PxbdOTuz7PD16WA) 46 | 47 | - [ChatGPT引领AIGC!Lehigh最新《AI生成内容》全面综述,44页详述GAN到ChatGPT发展历程](https://mp.weixin.qq.com/s/w4nF9KdOV3Y_6Pv6iQhOvw) 48 | 49 | ## 2023-03-15 50 | 51 | - [GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福](https://mp.weixin.qq.com/s/MN35PBHJEMRCJjyTQL5ggA) 52 | 53 | ## 2023-03-14 54 | 55 | - [LeCun狂赞:600刀GPT-3.5平替! 斯坦福70亿参数「羊驼」爆火,LLaMA杀疯了](https://mp.weixin.qq.com/s/ybVYZumZhk_yM_w0U1wXww) 56 | 57 | - [揭秘ChatGPT背后天价超算!上万颗英伟达A100,烧光微软数亿美元](https://mp.weixin.qq.com/s/syD74ICOlOaPATF8oxgrYg) 58 | 59 | - [Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置](https://mp.weixin.qq.com/s/1OQem9dSZP9_D_PESRnSjA) 60 | 61 | - [谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!](https://mp.weixin.qq.com/s/BJKVt9SDpnugfVZp-oDGZA) 62 | 63 | ## 2023-03-13 64 | 65 | - [硅谷银行暴毙,高盛疑似引雷?美联储250亿美元兜底,ChatGPT之父出手救急](https://mp.weixin.qq.com/s/mXnM9z9lVUDXEZbK6HwHeQ) 66 | 67 | - [微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure](https://mp.weixin.qq.com/s/KXkJvqhKBynLC4sZYNhjWg) 68 | 69 | - [LeCun转赞:在苹果M1/M2芯片上跑LLaMA!130亿参数模型仅需4GB内存](https://mp.weixin.qq.com/s/OjtjIVTNiXbDA1wTao4JVQ) 70 | 71 | - [LLaMa被玩坏,网友做「无限制版」BasedGPT,直言灭绝人类只需5步!](https://mp.weixin.qq.com/s/HaN55LpQABR4RhYXQIjoWw) 72 | 73 | - [ChatGPT破圈的「秘密武器」:详解RLHF如何影响人类社会!](https://mp.weixin.qq.com/s/DCFhefWGQS5naYwT3o6neg) 74 | 75 | ## 2023-03-12 76 | 77 | - [ChatGPT让亚马逊梦碎!微软CEO:Alexa、Siri、Cortana笨得和石头一样](https://mp.weixin.qq.com/s/D5qGJMEcGhc2wAXHWlY8yQ) 78 | 79 | ## 2023-03-11 80 | 81 | - [Nature:AI模型越大越好吗?](https://mp.weixin.qq.com/s/Wzb-pfCZihx2od_Ov3UYDw) 82 | 83 | ## 2023-03-10 84 | 85 | - [GPT-4下周王者登基!必应日活破亿,谷歌已被打残](https://mp.weixin.qq.com/s/2fvLMk9epv8BtHqD3Pfz8w) 86 | 87 | - [微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世](https://mp.weixin.qq.com/s/Xg-MRtqBt6ONKnLJYFw0Ww) 88 | 89 | - [怒砸1.8亿美元,ChatGPT之父想给人类寿命续10年?](https://mp.weixin.qq.com/s/bXlokVgdPmfK8J_A3WLIXQ) 90 | 91 | ## 2023-03-09 92 | 93 | - [真不是凡尔赛!ChatGPT如此成功,OpenAI也不理解](https://mp.weixin.qq.com/s/_g3bXDHiY0GZJlEbWEZH1Q) 94 | 95 | - [美国有50%企业在用ChatGPT了!一半人表示员工已被AI取代](https://mp.weixin.qq.com/s/AK7Kw6k2A2PzO1YvRsMzFg) 96 | 97 | ## 2023-03-08 98 | 99 | - [终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人](https://mp.weixin.qq.com/s/u1lFlj7-6Nqdc9MDEVUhNQ) 100 | 101 | - [大神李沐、快手元老李岩被曝离职后转投大模型,ChatGPT掀起AI创业狂飙](https://mp.weixin.qq.com/s/EPWcIqfBzm4WZg2JR26SNw) 102 | 103 | - [超有梗!ChatGPT版必应戏精上身,下一秒就和小扎、马斯克在线聊天](https://mp.weixin.qq.com/s/avZdXfiwSJtc5qlo86Dkdw) 104 | 105 | ## 2023-03-07 106 | 107 | - [LLaMA模型惨遭泄漏,Meta版ChatGPT被迫「开源」!GitHub斩获8k星,评测大量出炉](https://mp.weixin.qq.com/s/2M19WSq2YICo-3t5ibQcig) 108 | 109 | - [微软杀疯了!几行代码创建私人定制ChatGPT,AI办公软件帝国来了](https://mp.weixin.qq.com/s/E8CtNQVqzNm2MmNjX5c5QQ) 110 | 111 | ## 2023-03-06 112 | 113 | - [百万年薪职位,千亿美元赛道,AIGC大爆发我能怎么赚钱?](https://mp.weixin.qq.com/s/km4_dZKkg49TazGyrwcUEg) 114 | 115 | - [AI读脑炸裂!扫描大脑画面,Stable Diffusion逼真复现图像](https://mp.weixin.qq.com/s/gIwj2eqNph8jHWOhYYEXIg) 116 | 117 | ## 2023-03-05 118 | 119 | - [ChatGPT启示录!OpenAI街尾这家博物馆,展示人类毁灭未来](https://mp.weixin.qq.com/s/XbPp61AHTynARXKAoXl5kQ) 120 | 121 | - [马斯克的人体实验被FDA拒了!Neuralink大脑植入计划再推迟](https://mp.weixin.qq.com/s/iVApgKpyimu8VrFqfT3igQ) 122 | 123 | - [对于AIGC,李飞飞有这些看法|斯坦福HAI观点报告](https://mp.weixin.qq.com/s/RUJRcBlpp99coWCqSxrtSQ) 124 | 125 | ## 2023-03-04 126 | 127 | - [独家揭秘:ChatGPT背后的35岁神秘教母,一手推火这个神级AI](https://mp.weixin.qq.com/s/fsSsgyRtndUik7RgezHCSA) 128 | 129 | - [突破100万用户!华人本科生最强AI检测器GPTZero:美国宪法是AI写的](https://mp.weixin.qq.com/s/U_GFJaIePrZySjPS4HLVjg) 130 | 131 | - [港科大允许学生使用ChatGPT!AI能加强教学,老师可自行决策](https://mp.weixin.qq.com/s/mX-627sdAch1aDG4o0nviw) 132 | 133 | ## 2023-03-03 134 | 135 | - [新ChatGPT必应回归!三种人格一键切换,小编亲测全是亮点](https://mp.weixin.qq.com/s/fiJs-ckKjMBPItHWxHQE5Q) 136 | 137 | - [连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数](https://mp.weixin.qq.com/s/oe13K0TRxk1fGSi3wIZ_8Q) 138 | 139 | - [一段JavaScript让ChatGPT开口说话?网友开源自制浏览器插件](https://mp.weixin.qq.com/s/H4XLCQ-kR7T28yywHJL4uA) 140 | 141 | ## 2023-03-02 142 | 143 | - [OpenAI逆天发布ChatGPT API!100万个单词才18元,价格打骨折](https://mp.weixin.qq.com/s/Ei0xFOBS49MulHk0rQE-7w) 144 | 145 | - [OpenAI专业挖角,近100位大佬到手!谷歌、Meta等大厂沦为「后备人才库」](https://mp.weixin.qq.com/s/u2ChWsslrYLnhgXn86Jocw) 146 | 147 | - [复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限](https://mp.weixin.qq.com/s/1D62QuxXFDXWwwRXrB-Ivw) 148 | 149 | ## 2023-03-01 150 | 151 | - [中国大模型时代新Linux初显!FlagOpen大模型技术开源体系发布](https://mp.weixin.qq.com/s/HorUr0gvRx0tl3F_-aQB4Q) 152 | 153 | - [普华永道:ChatGPT和生成式AI的11大安全趋势](https://mp.weixin.qq.com/s/_RAx3vAx1ykQTJTEEoc37w) 154 | 155 | ## 2023-02-28 156 | 157 | - [小扎、马斯克宣战ChatGPT!Meta和推特组建顶级AI团队,硅谷硝烟四起](https://mp.weixin.qq.com/s/SM9daTGkPPmm97JsVo_GAg) 158 | 159 | - [前京东AI掌门人周伯文也入局ChatGPT,衔远科技正在招募合伙人](https://mp.weixin.qq.com/s/UEMohhtBBwwUhHI2owIQew) 160 | 161 | - [谷歌开源首个「方言」数据集:让机器翻译更地道](https://mp.weixin.qq.com/s/MnmoJkypjYiNkUaB99Yy2w) 162 | 163 | ## 2023-02-27 164 | 165 | - [ChatGPT之父提新版摩尔定律!宇宙智能数量每18个月翻一番](https://mp.weixin.qq.com/s/fY0jGtPlQBkXHEphftIQwA) 166 | 167 | - [不写代码,拿百万年薪!ChatGPT提示工程或造就15亿码农大军](https://mp.weixin.qq.com/s/K1t4ZI1hB1zlxM-uGq6ldQ) 168 | - [从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」](https://mp.weixin.qq.com/s/RDpOCcJKQ6h8Ns5xZyTBYw) 169 | - [浅析ChatGPT:历史沿革、应用现状及前景展望](https://mp.weixin.qq.com/s/fQ8DmL_M3QMiFX23Tf0z7w) 170 | 171 | ## 2023-02-26 172 | 173 | - [ChatGPT掀智力革命!OpenAI发布AGI路线图,最终通向超级智能世界](https://mp.weixin.qq.com/s/6Lyr2nVG5mxy1UBnOC5DAw) 174 | - [「终结者」走入现实?微软的野心:用ChatGPT控制机器人!](https://mp.weixin.qq.com/s/ahWFcsq9lurPbKi0-8705g) 175 | 176 | ## 2023-02-25 177 | 178 | - [Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA](https://mp.weixin.qq.com/s/KoAk1izAFoB4zN2Bvp9zKg) 179 | - [ChatGPT登上Time封面!这场竞赛,OpenAI赌赢了](https://mp.weixin.qq.com/s/5FFcP81nY6CvViTvdBnVDw) 180 | 181 | ## 2023-02-24 182 | 183 | - [6年秘密武器测试,ChatGPT必应暴打谷歌幕后大棋曝光!](https://mp.weixin.qq.com/s/UGL1iYgLv6fFVcyDPIDX8A) 184 | - [80%Nature读者都在用ChatGPT,科研方向最多的竟是头脑风暴!](https://mp.weixin.qq.com/s/8QwejMzkFfGSFNjyKaKV6Q) 185 | 186 | ## 2023-02-23 187 | 188 | - [ChatGPT版必应惨遭「切脑」,粉丝大闹4天!微软认怂:一天能聊60次](https://mp.weixin.qq.com/s/PDQ9bvJt9yVd_Nc0O5Ov7A) 189 | - [马库斯:新必应比ChatGPT更狂野,微软是故意的还是不小心?](https://mp.weixin.qq.com/s/_hr3Gb84MBu3sFoqSe6yjg) 190 | 191 | ## 2023-02-22 192 | 193 | * [ChatGPT火爆,最全prompt工程指南登GitHub热榜,标星4.7k!](https://mp.weixin.qq.com/s/pOPrQzEWzqruUnbWRhoGuw) 194 | * [ChatGPT之后何去何从?LeCun新作:全面综述下一代「增强语言模型」](https://mp.weixin.qq.com/s/7-dUjEPxkpoHd2NtGTkASQ) 195 | * [投资狂魔!ChatGPT之父Sam Altman:连投数十家,从好基友马斯克开始!](https://mp.weixin.qq.com/s/cR05DqUFrECwBxUDvBrvJQ) 196 | * [ChatGPT要怎么微调?MIT韩松团队新作告诉你!](https://mp.weixin.qq.com/s/j0VMK99kvJkQbM90L0xxCg) 197 | ## 2023-02-21 198 | * [小冰CEO李笛:小冰链不是中国版ChatGPT](https://mp.weixin.qq.com/s/ErujYGRmvsfGSttkjCHukQ) 199 | * [打造中国版ChatGPT,国内有哪些学术力量能抢滩?](https://mp.weixin.qq.com/s/o4qQ4l4OQEsOY7SvrDDu6A) 200 | * [谷歌摸着ChatGPT过河:没了热度,传统搜索引擎还是吊打LLM](https://mp.weixin.qq.com/s/05XpdKk3IdoELS7khVHgkA) 201 | ## 2023-02-20 202 | * [ChatGPT版必应:我会PUA、emo和威胁人类,但我是个好必应](https://mp.weixin.qq.com/s/T49iZ2yxba17v--N_6NSBQ) 203 | ## 2023-02-19 204 | * [港大全面封杀ChatGPT,AI作弊丑闻震惊全世界!](https://mp.weixin.qq.com/s/I0CbyB9sEh6P3prt2d5LsA) 205 | * [必应版ChatGPT内测资格海量发放!知乎大佬:别作死,就很强](https://mp.weixin.qq.com/s/u1DqneH-m6eDpJ6friZgUA) 206 | 207 | ## 2023-02-16 208 | * [篡位者OpenAI偷家谷歌,CEO怒发Bard调教指南:别慌,咱向来是弯道超车](https://mp.weixin.qq.com/s/kn9GQ05VtR0s4gXiHTLJOQ) 209 | * [中国版ChatGPT「狂飙」,科大讯飞冲刺入局!](https://mp.weixin.qq.com/s/J0Gb-CoKCaxcNw61fK_tBA) 210 | * [重看「新必应」发布会:比Bard错得更离谱,谷歌直呼有黑幕!](https://mp.weixin.qq.com/s/tf1u4SVzM9RRETbNS5UEbw) 211 | * [专访探索AGI的孤勇者,传奇工程师John Carmack:惊讶看不到如我这样的人](https://mp.weixin.qq.com/s/VQJidh7iMvH_wHlaAkUcOA) 212 | ## 2023-02-15 213 | * [ChatGPT秒杀了所有408考研编程题……](https://mp.weixin.qq.com/s/fC3PyC3PBodQTueAgKVgSQ) 214 | * [GitHub Copilot最新升级!61%的Java开发者用来摸鱼,工作效率提升55%](https://mp.weixin.qq.com/s/rWDbpsMh965NDv2JBJbDgg) 215 | * [第二大脑|AI不会取代我们,但会脑机协作的人将淘汰我们](https://mp.weixin.qq.com/s/v7pTJ5Yvq3tA4A-jLNSERA) 216 | * [马斯克还没解决的难题,这家独角兽先跑通了!或将成为「人形机器人第一股」](https://mp.weixin.qq.com/s/12wSUNJNZW8Minfse_CsLg) 217 | * [ChatGPT,真香!谷歌顶级AI人才组团叛逃OpenAI](https://mp.weixin.qq.com/s/9jRhq-KRofNFebF8IQCjWA) 218 | ## 2023-02-12 219 | * [Nature|ChatGPT和生成式AI对科学意味着什么?](https://mp.weixin.qq.com/s/12zzyq_3Kb-HenBLVdS1Dg) 220 | * [让大模型的训练和推理,比更快还更快!谷歌2022年终总结第四弹](https://mp.weixin.qq.com/s/rty-_8jLMn06LmcwfHxdSQ) 221 | * [ChatGPT竟有9岁小孩心智?斯坦福教授逆天发现,AI统治人类还远吗](https://mp.weixin.qq.com/s/cIs6BV0XOVtq_HeXoNmJzQ) 222 | ## 2023-02-09 223 | * [OpenAI何以掀翻Google布局多年的AI大棋?](https://mp.weixin.qq.com/s/o-bXmjKtJC3yaKsnDXiYtQ) 224 | * [谷歌版ChatGPT首秀大翻车!AI聊天竟答错问题,市值蒸发7000亿](https://mp.weixin.qq.com/s/7UYTOTOw_9eusjwkT3BlMA) 225 | ## 2023-02-08 226 | * [还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」](https://mp.weixin.qq.com/s/C4psr8pYoTUQRDiPEEjTdw) 227 | * [用ChatGPT写论文靠谱吗?有学者试了一下:漏洞百出,但是个注水的「好」工具](https://mp.weixin.qq.com/s/05HDgc1tDmmFb_3lc-6mtA) 228 | * [颠覆历史!「ChatGPT搜索引擎」发布,微软市值一夜飙涨5450亿](https://mp.weixin.qq.com/s/03EDC_Vl8SAM52oJvkX5SA) 229 | ## 2023-02-06 230 | * [ChatGPT黑化太可怕!化身硅谷资本家,学大厂CEO裁人不眨眼](https://mp.weixin.qq.com/s/agaoeptMnNOOA7W0Ip__QA) 231 | * [谷歌聊天机器人LaMDA被爆突然现身!只会聊狗子,被ChatGPT秒成渣](https://mp.weixin.qq.com/s/YAecygKFrTrD9ws5KdZjtQ) 232 | * [ChatGPT爆火,LeCun心态崩了!称大语言模型是邪路,Meta模型3天惨遭下线](https://mp.weixin.qq.com/s/Q9H-78VyI1tZ_9u1kvF_nA) 233 | ## 2023-01-27 234 | * [为啥ChatGPT让LeCun酸成柠檬精?谷歌、Meta、OpenAI聊天机器人大PK!](https://mp.weixin.qq.com/s/JaYGkLV7TBmfHTpoMP3vTg) 235 | ## 2023-01-26 236 | * [OpenAI恰饭,马库斯不爽:你能做啥谷歌做不到的事,值290亿美元天价?](https://mp.weixin.qq.com/s/-irSf44SZbhwTLE9HC5mfg) 237 | * [学生用ChatGPT拿下全班最高分,教授惊呆!全美高校打响AI反击战](https://mp.weixin.qq.com/s/0lhr_Nv7yXOPVmxEEuUklQ) 238 | ## 2023-01-22 239 | * [全球首个AI律师出道!CEO悬赏一百万美元招「工具人」,只需当个传话筒](https://mp.weixin.qq.com/s/gTSBsD_2sT40jvNbsP5n-w) 240 | * [ChatGPT推出收费版!每月285元,「白嫖党」 还能happy多久?](https://mp.weixin.qq.com/s/XdDSNjHRfJ8AIBGlwYf8Yg) 241 | * [微软元宇宙「大撤退」,VR/AR多个团队原地解散!全心押宝ChatGPT](https://mp.weixin.qq.com/s/xsfFvCrdCxGkTeU_Q82EZQ) 242 | ## 2023-01-20 243 | * [GPT-4参数过100万亿?OpenAI CEO辟谣:知道你急,但你先别急!](https://mp.weixin.qq.com/s/nqYRG27TRKYnsnLuI2kLCg) 244 | ## 2023-01-19 245 | * [超详超硬Jeff Dean万字总结火热出炉!图解谷歌2022年AIGC、LLM、CV三大领域成就](https://mp.weixin.qq.com/s/mYhSFtZZMRv5dDMnYcruJg) 246 | ## 2023-01-18 247 | * [生成AI登上达沃斯论坛,OpenAI CEO发话称AI将迈向下一个纪元](https://mp.weixin.qq.com/s/7mGoU8rV1kXJuE0uc-bUqQ) 248 | * [Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理](https://mp.weixin.qq.com/s/DhXBdRej4Fih_M1cm00qxQ) 249 | * [微软杀疯了!全家桶嵌入ChatGPT,云平台Azure强到发指](https://mp.weixin.qq.com/s/Zzmb0vw3RSHDpH5hCJJIFQ) 250 | -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/量子位.md: -------------------------------------------------------------------------------- 1 | # 量子位 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | []() 8 | 9 | []() 10 | 11 | []() 12 | 13 | []() 14 | 15 | []() 16 | 17 | []() 18 | 19 | []() 20 | 21 | []() 22 | 23 | ## 2023-03-19 24 | 25 | - [突发!李开复宣布筹办新公司:不仅是中国版ChatGPT,全球招英才](https://mp.weixin.qq.com/s/OVg6rbWEdq_JVEyboYdQpg) 26 | 27 | - [GPT-4刚发布就有手机APP接入,上传照片视频一键解读,还当起了美版知乎的问答bot](https://mp.weixin.qq.com/s/KZ6c9Q43xzb9fn-0_Oylpw) 28 | 29 | - [杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023](https://mp.weixin.qq.com/s/lH7TbpXqPEXKUIoZ3n8UDw) 30 | 31 | ## 2023-03-18 32 | 33 | - [GPT-4外逃计划曝光!斯坦福教授发现它正引诱人类帮助,网友:灭绝之门](https://mp.weixin.qq.com/s/ldB5oSaFkoh06K8tGbYGRw) 34 | 35 | - [如何利用ChatGPT搞科研?](https://mp.weixin.qq.com/s/MA70wwtemEAwzk6EAP4Uxg) 36 | 37 | - [清华系ChatGPT发布!唐杰团队打造,专对中文优化,还能把握最新新闻动态](https://mp.weixin.qq.com/s/ZUiybuj73cgBIYDM90aE3Q) 38 | 39 | ## 2023-03-17 40 | 41 | - [GPT-4接入Office全家桶!Excel到PPT动嘴就能做,微软:重新发明生产力](https://mp.weixin.qq.com/s/OsH5_WfmDxzJoiXC0WzbCg) 42 | 43 | - [GPT-4论文竟有隐藏线索:GPT-5或完成训练、OpenAI两年内接近AGI](https://mp.weixin.qq.com/s/sZATa-GGHUOlhZuCgaghhg) 44 | 45 | - [李开复:AI进入2.0时代,所有应用都会被重写一遍](https://mp.weixin.qq.com/s/zV8Y9RQnIoExwa1mmarZmA) 46 | 47 | ## 2023-03-16 48 | 49 | - [文心一言 vs GPT-4实测!百度背水一战交卷](https://mp.weixin.qq.com/s/uO8N3RpcrYU8rV1RkwBxzQ) 50 | 51 | ## 2023-03-15 52 | 53 | - [GPT-4发布!ChatGPT大升级!太太太太强了!](https://mp.weixin.qq.com/s/6u33Xnp4oEHq26WR4W1kdg) 54 | 55 | - [微软为ChatGPT打造专用超算!砸下几亿美元,上万张英伟达A100打造](https://mp.weixin.qq.com/s/jae8CoMWMKqLVhApqBcTfg) 56 | 57 | - [OpenAI还在烧钱,但开发者已经利用GPT和Stable Diffusion挣钱了](https://mp.weixin.qq.com/s/p_r70cITOZLtSUS8IJRT8g) 58 | 59 | ## 2023-03-14 60 | 61 | - [破解ChatGPT机遇与挑战,中国AIGC产业峰会给出最强答案](https://mp.weixin.qq.com/s/aGpJRo3rVt2Fk51KWm8k1g) 62 | 63 | - [斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!手机都能运行的那种](https://mp.weixin.qq.com/s/8SP6sKQ21YxeFQe3rwOh8A) 64 | 65 | - [港科大用ChatGPT会加分/ 文远知行启动赴美IPO/ 仅31%人睡够7小时…今日更多新鲜事在此](https://mp.weixin.qq.com/s/NfUJMuEeaefdWAs6GvJ2PA) 66 | 67 | ## 2023-03-13 68 | 69 | - [ChatGPT老板撒钱救难:百万美元帮硅谷银行受害公司,不要借条不用承诺,能还时再还](https://mp.weixin.qq.com/s/YdvARPFU9Cfgbvh9SjjQ9w) 70 | 71 | - [ChatGPT开源平替来了,开箱即用!前OpenAI团队打造,GitHub刚发布就揽获800+星](https://mp.weixin.qq.com/s/-MEOhOVut2dCvbF5N6UfyQ) 72 | 73 | ## 2023-03-12 74 | 75 | - [ChatGPT造孽!中国高校因它算力荒](https://mp.weixin.qq.com/s/ofuVXgSrH2-pW202-oOlIA) 76 | 77 | - [ChatGPT设计的游戏火了!玩法代码一力搞定,自称「原创」却被指:抄袭了](https://mp.weixin.qq.com/s/8WjGB0M2v3UTTWMC3-_88Q) 78 | 79 | - [ControlNet仅靠一张照片完成“旧房改造” | GitHub热榜第一](https://mp.weixin.qq.com/s/OK12c91LgpyDUgdePP5Q9w) 80 | 81 | ## 2023-03-11 82 | 83 | - [陶哲轩:ChatGPT已加入我的数学工作流](https://mp.weixin.qq.com/s/p8xPnTdkYr3HbJrKaS3pNA) 84 | 85 | - [LeCun:ChatGPT是「外星人」,所以才会胡说八道](https://mp.weixin.qq.com/s/1joGUfZ7Qf9B4WTGFLPT_Q) 86 | 87 | ## 2023-03-10 88 | 89 | - [谷歌报复性砸出5620亿参数大模型!比ChatGPT更恐怖,机器人都能用,学术圈已刷屏](https://mp.weixin.qq.com/s/r6wzrI4h4hBxZJgcVl89Xw) 90 | 91 | - [视觉版ChatGPT来了!吸收AI画画全技能,MSRA全华人团队打造,微软16年老将领衔](https://mp.weixin.qq.com/s/oanSkopLM93Krx2jVozR_A) 92 | 93 | - [马斯克要买地当「城主」/ 苹果手表引入ChatGPT/ 小鹏辟谣多名核心高管离职…今日更多新鲜事在此](https://mp.weixin.qq.com/s/sOKOcBtlu5wXaYZHagtGgg) 94 | 95 | ## 2023-03-09 96 | 97 | - [搞科研新姿势:让GPT-3给你打下手](https://mp.weixin.qq.com/s/WpaArZiJ5YT4-0k_HZIKjg) 98 | 99 | - [ChatGPT让3D猫娘有了灵魂!可实时语音互动,还能在虚拟场景中给你做饭玩猜谜](https://mp.weixin.qq.com/s/onYpmX0XpKGJVtzi9E8qDw) 100 | 101 | - [王兴将出任王慧文创业公司董事/ 谷歌多年来故意推迟发布类ChatGPT/ 飞书回应齐俊元并未负责日本业务...今日更多新鲜事在此](https://mp.weixin.qq.com/s/Gc-u0HJMUsdzmWOnvigE3Q) 102 | 103 | ## 2023-03-08 104 | 105 | - [ChatGPT的CEO共识:超级AI算力+大模型成为核心竞争力,生产力被重新定义](https://mp.weixin.qq.com/s/Zl60kIRHUBWJ3OJ55GsAqg) 106 | 107 | - [实测最像ChatGPT的中文产品:能解释三体、懂弱智吧的梗,内测开启人人都能试!](https://mp.weixin.qq.com/s/RtUNfCoM1qDxPA3zwxOv0g) 108 | 109 | - [ChatGPT版佛祖爆火出圈:施主,说出你的烦恼](https://mp.weixin.qq.com/s/xk-AnFOQeJtnJsSMaJcDdQ) 110 | 111 | ## 2023-03-07 112 | 113 | - [ChatPDF也来了!一键上传文件即可解读,复制粘贴都省了](https://mp.weixin.qq.com/s/XINHbYX-K6v0J7Zu3W3swQ) 114 | 115 | ## 2023-03-06 116 | 117 | - [大模型111人:谷歌和OpenAI的人才战争](https://mp.weixin.qq.com/s/VTeIZM9Zi9hc65z-4b_DVg) 118 | 119 | ## 2023-03-05 120 | 121 | - [老罗落泪!北大团队搞出ChatExcel,说人话自动处理表格,免费且不限次使用](https://mp.weixin.qq.com/s/sSbvbJ2Zc3igj017OlybMA) 122 | 123 | - [Science:AI竞赛,学术界输了](https://mp.weixin.qq.com/s/gIDAFFu3Yky9s4OsIk3MrA) 124 | 125 | ## 2023-03-04 126 | 127 | - [大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023](https://mp.weixin.qq.com/s/1wloJt03QdCTRBTe7qZSvA) 128 | 129 | ## 2023-03-03 130 | 131 | - [谷歌AI绘画4大牛携手创业,天使估值7个亿](https://mp.weixin.qq.com/s/9KmSGCzzxtXtt1YTAX7grw) 132 | 133 | - [接入ChatGPT应用被苹果阻止更新,要求改成17限](https://mp.weixin.qq.com/s/dG_vZc1IZJAjBvqsuag2Uw) 134 | 135 | - [ChatGPT吸走谷歌人才,谷歌云CEO:AI新游戏刚开场,莫慌](https://mp.weixin.qq.com/s/65XQOCdCCgCp2B0QEhMdlg) 136 | 137 | ## 2023-03-02 138 | 139 | - [ChatGPT开放API,价格直接打1折](https://mp.weixin.qq.com/s/S0pkSzesYzAXlJBt9ninZQ) 140 | 141 | 142 | - [“ChatGPT爆火后,NLP技术不存在了”](https://mp.weixin.qq.com/s/FknHZ_FFdwdofp5vn9ot3g) 143 | 144 | 145 | - [为什么ChatGPT没有诞生在中国?三只「拦路虎」|CCF C³](https://mp.weixin.qq.com/s/C_8wGsIBDbXmhBDu3XyvYw) 146 | 147 | 148 | ## 2023-03-01 149 | 150 | - [OpenAI提出的新摩尔定律怎样理解?中国隐藏算力巨头有话说](https://mp.weixin.qq.com/s/cHqJJboG7WM9QJ6WQD_G1w) 151 | 152 | 153 | - [要做中国OpenAI的很多,但智源要打造大模型领域的Linux](https://mp.weixin.qq.com/s/_7hS-A5XoLRbSdMLBuuwqg) 154 | 155 | 156 | - [微软亚研院:Language Is Not All You Need](https://mp.weixin.qq.com/s/n7ziKJeVzEzVB1w1kpsn4g) 157 | 158 | 159 | - [轻量版ChatGPT训练方法开源!仅用3天围绕LLaMA打造,号称训练速度比OpenAI快15倍](https://mp.weixin.qq.com/s/Qyf7Ng2mhuJggpyDp_84zQ) 160 | 161 | 162 | - [马斯克AI实验室名字敲定/ Win11任务栏添加ChatGPT搜索/ 沃尔玛限制员工使用ChatGPT…今日更多新鲜事在此](https://mp.weixin.qq.com/s/Lz8DtyYlBgnLyMaZhfTBBA) 163 | 164 | 165 | ## 2023-02-28 166 | 167 | - [国产ChatGPT大战弱智吧效果实测!网页端小程序均已上线,人人可玩](https://mp.weixin.qq.com/s/1anpyHZe2Dc8PKiPR3i4kA) 168 | 169 | - [马斯克版ChatGPT计划曝光!OpenAI叛将牵头,坚定推进AGI](https://mp.weixin.qq.com/s/BMQrEfmjAOwZH_erN7Oczg) 170 | 171 | - [论文版「ChatGPT」来了!看论文问问题可同时进行,网友:看文献更省时了|开源](https://mp.weixin.qq.com/s/yuLf4ILwnNot58Up-9gwDQ) 172 | 173 | ## 2023-02-27 174 | 175 | * [ChatGPT发疯怎么办?小冰李笛:两个关键,我可破之](https://mp.weixin.qq.com/s/pzu7ikmtxLmM9x2uLED0-w) 176 | * [前京东AI掌门人入局ChatGPT!「不设上限」招揽中国OpenAI合伙人](https://mp.weixin.qq.com/s/w0sjUi7MbnAyxPnuLzMyRg) 177 | * [ChatGPT核心方法可用于AI绘画,效果飞升47%,通讯作者:已跳槽OpenAI](https://mp.weixin.qq.com/s/PPF4K153QhuUOeRvGcRcZQ) 178 | * [美团创始高管离职创业/ 国内首个类ChatGPT下月开源/ 推特员工睡公司仍被裁 ...今日更多新鲜事在此](https://mp.weixin.qq.com/s/Ecd-I1VTrKGGhh-AohhUCg) 179 | ## 2023-02-26 180 | * [谷歌大模型团队并入DeepMind!誓要赶上ChatGPT进度](https://mp.weixin.qq.com/s/Blo4xtjNu6mS06U1v3AdZg) 181 | * [比ChatGPT强大100万倍!老黄预测未来AI模型,网友:夸张但又不无道理](https://mp.weixin.qq.com/s/dxlUOwhJ9Wv8K3_s33KpMw) 182 | * [黑客靠ChatGPT赚钱:每100次收费37元,还能修改恶意软件代码](https://mp.weixin.qq.com/s/9YTr1K9oTbRGhanpPuG13Q) 183 | ## 2023-02-25 184 | * [OpenAI热钱投向造芯!押注一老一少半导体传奇组合,乔布斯和马斯克都曾赞不绝口](https://mp.weixin.qq.com/s/BSAT0M8sJpe--v7P2FyPgA) 185 | * [她用ChatGPT写了一篇文章,日赚14000元!](https://mp.weixin.qq.com/s/tLchVipoWOa2pPfbOPgpOg) 186 | * [单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等](https://mp.weixin.qq.com/s/PEc12gEzIgv2RKxfj57FOA) 187 | * [华人小哥打造乔布斯版ChatGPT,网友:感觉他复活了](https://mp.weixin.qq.com/s/19NFPda4ot3X7L7Z-GPCuw) 188 | ## 2023-02-24 189 | * [清华大模型人才遭哄抢!盘点5大学术重镇10大产业玩家](https://mp.weixin.qq.com/s/dtMffokblkiicVKPVWZzrA) 190 | * [ChatGPT之后,下个AIGC杀手级应用已近在眼前](https://mp.weixin.qq.com/s/OPVK5-enWkKUxl2CGMmpqw) 191 | * [ChatGPT迅速学会下棋精髓,把人类给整不会了,网友:这哪预判得了?](https://mp.weixin.qq.com/s/31v0VDqzztnTfOyga7toWQ) 192 | * [字节版ChatGPT年中推出/ iPhone15Pro新增一色/ 谷歌开始共享工位…今日更多新鲜事在此](https://mp.weixin.qq.com/s/0xy0qqGWpLqUrmGW4zv_Uw) 193 | ## 2023-02-23 194 | * [如何加速大模型开发?技术方案拆解来了:昇思MindSpore技术一览](https://mp.weixin.qq.com/s/cFpU1t0ahLUonT0uX71gfQ) 195 | * [手机端ChatGPT搜索来了!微软2周火速上线,@Bing即用](https://mp.weixin.qq.com/s/1uTfthwmNEDSPUVsfyUY9g) 196 | ## 2023-02-22 197 | * [马斯克:下周开源推特算法/ OpenAI宕机/ 余承东说华为没必要造车…今日更多新鲜事在此](https://mp.weixin.qq.com/s/YbPfpeVKpz4qaa15FUGxsQ) 198 | ## 2023-02-21 199 | * [ChatGPT上岗医疗还有多远?哈佛教授亲测表现接近医生,云知声被曝打造行业版](https://mp.weixin.qq.com/s/8CltdJQ0FZ9sNBGu4ZjnaA) 200 | * [复旦发布国内首个类ChatGPT模型!已开放内测申请,代码将于3月发布](https://mp.weixin.qq.com/s/HaDMaP3_tIKshnvW2aoQGQ) 201 | ## 2023-02-20 202 | * [朱俊彦团队新AI模型发布:2D草图一键变成3D模型](https://mp.weixin.qq.com/s/slMwfui07eQ_jfljmkD23Q) 203 | * [让AI学会画手的方法来了,给输入加个buff就能控制生成细节,华人小哥出品丨GitHub 4.6k星](https://mp.weixin.qq.com/s/UfWNIknn7h-JaiNNmLPybQ) 204 | * [GPT版超级马里奥来了!输入文本即可自定义游戏关卡 | GitHub标星500+](https://mp.weixin.qq.com/s/DgaLyo9VSxGOe-mE_DuNAw) 205 | * [ChatGPT写的书要出版/ 特斯拉创始人打脸马斯克/ 业余棋手击败申真谞陪练AI... 今日更多新鲜事在此](https://mp.weixin.qq.com/s/kBcri8MxUCdAFqPfRX6ZtQ) 206 | ## 2023-02-19 207 | * [ChatGPT:那些让美国伟大的俄罗斯人](https://mp.weixin.qq.com/s/GRflnsfhk3x15Bvx2IVdRw) 208 | * [ChatGPT遭港大「封杀」:罪同论文剽窃抄袭,使用须报备过审](https://mp.weixin.qq.com/s/w9A3WY3JQ_OBTnIeMINMsQ) 209 | ## 2023-02-18 210 | * [破案了!百万用户与AI交友,背后果然有大模型](https://mp.weixin.qq.com/s/k-v6hbSonrlkPrJA6wPOlQ) 211 | * [设计师编辑成ChatGPT用户主力!程序员仅占4.4%](https://mp.weixin.qq.com/s/_cCEcBKH52bHHjwybCdoLg) 212 | * [把ChatGPT同源模型连到终端,编程效率原地起飞,只需3步就能搞定 | 程序员福音](https://mp.weixin.qq.com/s/cOm_qU3B0EQpDjX4Ychjgw) 213 | ## 2023-02-16 214 | * [科大讯飞回应了:中国版ChatGPT可以乐观以待,有信心实现类似技术跃迁](https://mp.weixin.qq.com/s/s88HWFNwONc_6A6I9fpFFQ) 215 | * [ChatGPT为啥这么强:万字长文详解 by WolframAlpha之父](https://mp.weixin.qq.com/s/Nce2NGdj0CQZYw8t4iptzQ) 216 | ## 2023-02-15 217 | * [寻找中国的ChatGPT|《中国AIGC产业全景报告暨AIGC 50》邀你共同参与](https://mp.weixin.qq.com/s/aiY-TQOH8u4MdqnwN7qgEA) 218 | * [ChatGPT接入Siri指南来了/必应下载量进前五/ 特斯拉被曝监控员工致不敢上厕所…今日更多新鲜事在此](https://mp.weixin.qq.com/s/GnIwWzDn7h3ZaUV88edhqQ) 219 | * [GitHub急推Copilot“PLUS版”,按人头收费每人每月130元,已有400多家企业购买](https://mp.weixin.qq.com/s/iouUhN4LDTUMktOQKTLACQ) 220 | * [AI照骗恐怖如斯!美女刷屏真假难辨,网友:AI网恋诈骗时代开启](https://mp.weixin.qq.com/s/nELNzal7tjkbZ6uKkuGkeA) 221 | * [ChatGPT一枪打服谷歌AI人才!情人节组团加盟OpenAI](https://mp.weixin.qq.com/s/j7WwdUdAIeXnHCysZwBjcQ) 222 | * [ChatGPT低成本复现流程开源!任意单张消费级显卡可体验,显存需求低至1.62GB](https://mp.weixin.qq.com/s/GcqFifmpE3_VvuAcJPsf-A) 223 | ## 2023-02-12 224 | * [微软ChatGPT实测:这样“不道德”,我是拒绝的](https://mp.weixin.qq.com/s/WnmaqcgYl3VtydAeBNbtLw) 225 | * [ChatGPT背后模型被证实具有人类心智!斯坦福新研究炸了,知名学者:“这一天终于来了”](https://mp.weixin.qq.com/s/zgrJVFvkqG69BrQCky193A) 226 | ## 2023-02-09 227 | * [孟晚舟将首次出任华为轮值董事长/ 百度All in类ChatGPT项目/ 知乎因ChatGPT大涨50%…今日更多新鲜事在此](https://mp.weixin.qq.com/s/X_Szy3N0wq-G7c3n4It3VA) 228 | * [用ChatGPT做表格真香!只需动嘴提要求和复制粘贴](https://mp.weixin.qq.com/s/Pl8IeNDKG5DJ2HGRtwYXRA) 229 | * [阿里版ChatGPT已进入测试!中文聊天截图曝光,达摩院出品](https://mp.weixin.qq.com/s/xQmX9EnrKLAUxsEoCZXJVg) 230 | * [谷歌版ChatGPT灾难级发布,市值一夜狂跌7000亿,熬夜网友:退钱!](https://mp.weixin.qq.com/s/ErBVGG-HcdV1i6mIVPlwyg) 231 | ## 2023-02-08 232 | * [ChatGPT五分钟写完插件,功能完善,还可加需求改BUG](https://mp.weixin.qq.com/s/tMSuHlTnfNoBqWXGyD5PyQ) 233 | * [「用ChatGPT搞钱年入百万!」各路博主发布生财之道,网友回呛:答辩的搬运工](https://mp.weixin.qq.com/s/QlrpZ_tpue_EnhelwLfAcQ) 234 | * [压着谷歌打!ChatGPT提前上岗微软搜索,现在就能用,纳德拉:竞赛今天才开始](https://mp.weixin.qq.com/s/yraTMoscxI-K9ocE4Fe7aw) 235 | ## 2023-02-06 236 | * [ChatGPT给总统写演讲稿,骗过现场2万听众](https://mp.weixin.qq.com/s/dU92RSw9gWkGEzwQAQnzEg) 237 | * [来了,ChatGPT开始在金融圈抢活](https://mp.weixin.qq.com/s/0zn5PGkqErd2nSUnRY-fdw) 238 | ## 2023-01-27 239 | * [Transformer模仿大脑,在预测大脑成像上超越42个模型,还能够模拟感官与大脑之间的传输](https://mp.weixin.qq.com/s/O-gCHzTL4lAJ8bQDZtzPDQ) 240 | * [美版头条ChatGPT上岗写稿消息一出,股价暴涨119%,此前刚裁员12%](https://mp.weixin.qq.com/s/OPZ0s4uGhShy9T43LkBQzw) 241 | ## 2023-01-25 242 | * [图灵奖得主LeCun评ChatGPT不算创新,被网友骂柠檬精](https://mp.weixin.qq.com/s/vLYVqLlq7O6vBK3rAPQJiw) 243 | ## 2023-01-22 244 | * [谷歌真被ChatGPT搞慌了!两位创始人紧急回归制定战术,搜索广告根基不容有失](https://mp.weixin.qq.com/s/LLDvuJfjeHiPJSwjRYlQMA) 245 | ## 2023-01-21 246 | * [ChatGPT让游戏NPC活了!交流不再靠选项,问什么答什么,网友直呼童年梦想成真](https://mp.weixin.qq.com/s/MyHjECe4rjCj5_RK8wLxnA) 247 | * [谷歌年关裁员1.2万人,暂停新员工绿卡申请!加州第一个法定春节假日,打工人年难过](https://mp.weixin.qq.com/s/NjEg3Dl9_l6I0vKvYNL1tA) 248 | 249 | 250 | 251 | 252 | 253 | 254 | 255 | 256 | 257 | -------------------------------------------------------------------------------- /GPT4/Blog/GPT4_Technical_Detail.md: -------------------------------------------------------------------------------- 1 | # GPT4_Technical_Detail 2 | 3 | **GPT-4:我 SAT 考 710,也能当律师** 4 | 5 | GPT-4 是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。 6 | 7 | OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。 8 | 9 | 在过去的两年里,OpenAI 重建了整个深度学习堆栈,并与 Azure 一起为其工作负载从头开始设计了一台超级计算机。一年前,OpenAI 在训练 GPT-3.5 时第一次尝试运行了该超算系统,之后他们又陆续发现并修复了一些错误,改进了其理论基础。这些改进的结果是 GPT-4 的训练运行获得了前所未有的稳定,以至于 OpenAI 能够提前准确预测 GPT-4 的训练性能,它也是第一个实现这一点的大模型。OpenAI 表示他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的提前预测性能和规划未来的能力,这对安全至关重要。 10 | 11 | OpenAI 正在通过 ChatGPT 和 API(有候补名单)发布 GPT-4 的文本输入功能。图像输入功能方面,为了获得更广泛的可用性,OpenAI 正在与其他公司展开合作。 12 | 13 | OpenAI 今天还开源了 OpenAI Evals,这是其用于自动评估 AI 模型性能的框架。OpenAI 表示此举是为了让所有人都可以指出其模型中的缺点,以帮助 OpenAI 进一步改进模型。 14 | 15 | 有趣的是,GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 ——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。为了了解这两个模型之间的差异,OpenAI 在各种基准和一些为人类设计的模拟考试上进行了实验。 16 | 17 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQsucdPDloXgcqQs6Y45Nadjb3HCGv71N48zTNsaID4SFrCJytia5iabXQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 18 | 19 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQCiaBcN0fiaiagE9z3H5ictraHq3xHAYYF4CLf4culSEibNuw0I5bQ1ObHhQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 20 | 21 | OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型: 22 | 23 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQDEpdaK8HPH1ia5YIBgiacREtESJSTDCd1rZqC1zue8o7Cel4pn8UjRtQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 24 | 25 | 许多现有的机器学习基准测试都是用英语编写的。为了初步了解 GPT-4 在其他语言上的能力,研究团队使用 Azure Translate 将 MMLU 基准 —— 一套涵盖 57 个主题的 14000 个多项选择题 —— 翻译成多种语言。在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能: 26 | 27 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQ6mIsXRQE7vxtswSa4U4z1odwUU5gvns3htA6AJffarnej7sP3keaVQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 28 | 29 | 就像许多使用 ChatGPT 的公司一样,OpenAI 表示他们内部也在使用 GPT-4,因此 OpenAI 也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。OpenAI 还使用 GPT-4 辅助人们评估 AI 输出,这也是 OpenAI 对其策略的第二阶段。OpenAI 既是 GPT-4 的开发者,也是使用者。 30 | 31 | **GPT-4:我能玩梗图** 32 | 33 | GPT-4 可以接受文本和图像形式的 prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。 34 | 35 | 具体来说,它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域 —— 包括带有文本和照片的文档、图表或屏幕截图上 ——GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链 prompt。 36 | 37 | 比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑? 38 | 39 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQCkibRrYhibJgAdSwD38NaYMcX68tg1a9y0qWMpAIaOtQicJXSGC415y0w/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 40 | 41 | GPT-4 回答道,VGA 线充 iPhone。 42 | 43 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQ19Ny87ztoOO1NNpDqLsq0UVMIiahtoc2XASib9DCs3DYypscfchgwV6Q/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 44 | 45 | 格鲁吉亚和西亚的人均每日肉类消费,算平均数: 46 | 47 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQczM849iciazf9czvBFUib9BCbc9Ddo3DM8QaPSXbdia5Sz9WGDa2icstEhw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 48 | 49 | 看起来,现在的 GPT 已经不会在计算上胡言乱语了: 50 | 51 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQbQKd3ViaI6xFX38M8EozD87icaMKbC2vh0fkSaCduKV27ggAsdNzvIKQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 52 | 53 | 还是太简单,那直接让它做题,还是个物理题: 54 | 55 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQ6BcnMNPH9O6up54tl0DtibHyD91N9hnjLZdhib478pGoEwKylictSGl3A/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 56 | 57 | GPT-4 看懂了法语题目,并完整解答: 58 | 59 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQAyicQwxa1BYx8zp7rzVIibIxKG4KCiclT5QAUCu2LSOVjGRBb2yCGCh0w/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 60 | 61 | GPT-4 可以理解一张照片里「有什么不对劲的地方」: 62 | 63 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQy93kxCXogiaUnCgaEXlfkMPFAnK0hKSQ3lHgeskylU5xa7BLTFCOxuQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 64 | 65 | GPT-4 还可以量子速读看论文,如果你给它 InstructGPT 的论文,让它总结摘要,就会变成这样: 66 | 67 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQJl0horZtokSsiasicAyzGgboPibQKicmxmOk8MYz6B1rMearAQGSNcbKSw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 68 | 69 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQiap7DdRTbU3xicUvbKwU8QXFxRvOVr6WjibsfaxAHXxjo8jiaOELs7FEOA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 70 | 71 | 如果你对论文里的某一个图感兴趣呢?GPT-4 也可以解释一下: 72 | 73 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQ6EX9J8rYgMWhKhfdPlctn09ibMLzrN5EIT9d0PMGlKGUksCM7tfyOJA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 74 | 75 | 接着来,问 GPT-4 梗图是什么意思: 76 | 77 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQvibEdf03YHLPZicP1vvaMCibNb1Wl12U26qPQfhBGhkd1zYMicyHWUMUdQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 78 | 79 | 它给出了详细的回答: 80 | 81 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQ94icOicLKicic3sicRZS3IEK5iaHHQXhyc8TOe6XOQ2tjXcWPm0a4Prib5tHg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 82 | 83 | 那么漫画呢? 84 | 85 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQGSztlCl4jicn4uBU5b8x9hWI15BQgYPKC7ceJBPYoGaBkGYiagCwaib4Q/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 86 | 87 | 让 GPT-4 解释为什么要给神经网络加层数,似乎有一点加倍的幽默感。 88 | 89 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQSxiaVsiasxKWtV1Umc9FNwnVUXfB1ugRRJibpkFwvqSMiajichL5XccAMqA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 90 | 91 | 不过 OpenAI 在这里说了,图像输入是研究预览,仍不公开。 92 | 93 | 研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力,然而这已经不够了,他们还能不断发现该模型可以令人兴奋地处理新任务 —— 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。 94 | 95 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQ6ZjyS30ZUoX1B13dCVkrR9SqPtglp6X1LFgrwTQYibtnlib9sqzgeEow/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 96 | 97 | 看到这里,应该有研究人员感叹:CV 不存在了。 98 | 99 | **可控性** 100 | 101 | 与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。 102 | 103 | 系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。OpenAI 知道你们在让 ChatGPT 玩 Cosplay,也鼓励你们这样做。 104 | 105 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQlucgCzG1AiboIDVa9gzIUqcYD0OAuhLoyjpPibGHYNiaQEPwzCrmjlz1g/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 106 | 107 | **局限性** 108 | 109 | 尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。 110 | 111 | 目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。 112 | 113 | 总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%: 114 | 115 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQ6VqyoPx0qU39pGfbf63M5cq4xMqdDg59rX2qicBuIbyoewWaZ1YAcHw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 116 | 117 | GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。 118 | 119 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQXf0LxdG4w2TRRdOt5j8LxWEtQukTsgmM43UBy6RHe5o48EbFFYEq3Q/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 120 | 121 | 实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 —— 并不是所有时候它都能做出正确的选择。 122 | 123 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQdY6Nzac60rg7Ce2LaTxhsVYBcm3nvFib7jAy5XribPIrPbHmhBC20kYw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 124 | 125 | 该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。 126 | 127 | GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。 128 | 129 | GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。 130 | 131 | ![图片](data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E) 132 | 133 | **风险及缓解措施** 134 | 135 | OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。 136 | 137 | GPT-4 有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。 138 | 139 | **预防风险** 140 | 141 | 按照 demo 视频里 OpenAI 工程师们的说法,GPT-4 的训练在去年 8 月完成,剩下的时间都在进行微调提升,以及最重要的去除危险内容生成的工作。 142 | 143 | GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的,它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。 144 | 145 | 这些措施大大在许多方面改善了 GPT-4 的安全性能。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。 146 | 147 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQ6ibUcRsBcOqp0jmQLkTq40jsp9bwlYib8VNm5mGpdg2lmbvzu9bArELA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 148 | 149 | **训练过程** 150 | 151 | 与之前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词。OpenAI 使用公开可用的数据(例如互联网数据)以及已获得许可的数据进行训练。训练数据是一个网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。 152 | 153 | 因此,当提出问题时,基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致,OpenAI 依然使用强化学习人类反馈 (RLHF) 来微调模型的行为。请注意,该模型的能力似乎主要来自预训练过程 ——RLHF 不会提高考试成绩(甚至可能会降低它)。但是模型的控制来自后训练过程 —— 基础模型甚至需要及时的工程设计来回答问题。 154 | 155 | GPT-4 的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是,对于像 GPT-4 这样的大型训练,进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化,在多种规模下都有可预测的行为。为了验证这种可扩展性,他们提前准确地预测了 GPT-4 在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为 1/10000。 156 | 157 | ![图片](data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E) 158 | 159 | 现在,OpenAI 可以准确地预测在训练过程中优化的指标(损失)。例如从计算量为 1/1000 的模型中推断并成功地预测了 HumanEval 数据集的一个子集的通过率: 160 | 161 | ![图片](data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E) 162 | 163 | 有些能力仍然难以预测。例如,Inverse Scaling 竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect 任务是获胜者之一。GPT-4 扭转了这一趋势。 164 | 165 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQcrqInY8ibyh1BBBBwzNwU6kVVRpjO5hB7O57ho8o0a6HEPCgVbCzibVQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 166 | 167 | 能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视,OpenAI 表示正在投入更多精力开发相关方法,并呼吁业界共同努力。 168 | 169 | OpenAI 表示正在开源 OpenAI Evals 软件框架,它被用于创建和运行基准测试以评估 GPT-4 等模型,同时可以逐样本地检查模型性能。 170 | 171 | **ChatGPT 直接升级至 GPT-4 版** 172 | 173 | GPT-4 发布后,OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。 174 | 175 | 要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。 176 | 177 | 获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。 178 | 179 | GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。 180 | 181 | 以上,就是今天 OpenAI 关于 GPT-4 的所有内容了。令人不满的一点是,OpenAI 公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,可以说是很不 Open 了。 182 | 183 | 不管怎样,迫不及待的用户大概已经开始测试体验了吧。 184 | 185 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gW9IKEQMJCN2Otv1uqdzMUYQWqdAAK42ww9svEhm3LPOK6ib6JumQxXjuPicsSOGv1l6YHIS7icnjTQFA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 186 | 187 | 最后,也想问一下读者,看完 GPT-4 的发布,你有何感想。 188 | 189 | *参考内容:**https://openai.com/product/gpt-4* 190 | 191 | 192 | 193 | 194 | 195 | 196 | 197 | 198 | 199 | -------------------------------------------------------------------------------- /GPT4/Blog/Research_Origin_of_GPT-4.md: -------------------------------------------------------------------------------- 1 | # Research Origin of GPT-4 2 | 3 | 三十年前,互联网(Web 1.0)时代开启。人们只能在笨重的电脑上用鼠标点击由HTML编写的网页文本,随后开始支持插入图片,可以上传视频,于是有了网络新闻、搜索、电子邮件、短信、网游......互联网带来了全新的商业模式,深刻改变了人们的生产生活。 4 | 5 | 三十年后的当下,以ChatGPT为代表的大模型问世了。起初人们拿它当玩具,直到ChatGPT的诞生与人类实现惊艳交互,自动生成文本信息,而刚刚发布的GPT-4更是进化成支持文本和图像的多模态大模型,还能理解图像、代码,目前已经接入到微软Office全家桶...... 6 | 7 | 看到两者的共性了吗? 8 | 9 | 比尔·盖茨说,ChatGPT不亚于互联网的诞生。而OpenAI总裁、联合创始人Greg Brockman更直截了当:“**我们会拿下Web 4.0**。”在去年ChatGPT发布前与ScaleAI CEO Alexandr Wang的对话中他这样谈到。而在3月10日举办的SXSW 23大会的另一场对话上,他称:**我们正在创建新型互联网或类似的东西。** 10 | 11 | 多模态GPT-4更像往这一方向演化的雏形。在ChatGPT发布后,仅仅经过四个月的大约五次更迭,这个升级版模型展现出更震撼的效果和更大影响力。 12 | 13 | 这让一直在研究人类大脑运作机制的[**“深度学习教父”Geoffrey Hinton**](http://mp.weixin.qq.com/s?__biz=MzU5ODY2MTk3Nw==&mid=2247488734&idx=1&sn=5030ae3c61274ec2fa3b05aa73fe4776&chksm=fe419ae8c93613fe3a0496962b3548e58a1713d1daec14ed15f83f43cd4c7f9dd31877f623c7&scene=21#wechat_redirect)也不免感到激动:“毛毛虫提取营养物质,然后破茧成蝶。而人们已经萃取了数十亿理解的精华,GPT-4就是人类的'蝴蝶'(humanity's butterfly)。”他还评价了[**让ChatGPT大获成功的秘密武器**](http://mp.weixin.qq.com/s?__biz=MzU5ODY2MTk3Nw==&mid=2247490988&idx=1&sn=664b9b90504c75ed0f27b0651f3aad2f&chksm=fe41939ac9361a8c400c2310c4297ef6a80f626731e32cca276504e4b4b8c9a38c6d63eea3f1&scene=21#wechat_redirect):人类反馈的强化学习(RLHF)是在教育一个超自然早熟的孩子。 14 | 15 | 这使得人类与机器实现了动态互动,让机器的智能特征体现得更明显,不同于人类与传统互联网交互的静态方式。在Brockman看来,我们正走在一个充满活力的世界,AI将改变人们与信息互动的方式,它会理解并帮助你。换句话说,GPT模型在真正改变人机交互的方式。 16 | 17 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWos2icFFvzia92uHmySl4l1kzmVovPkhic7N4UOO4BzfVTanqgF75QjxtoDfbGDaY5NVhkInsDZjujgA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 18 | 19 | GPT模型所取得的成就令人艳羡,不过这建立在OpenAI数年的技术探索和坚定信念上。 20 | 21 | [**作为深度参与了GPT模型从0到1生产过程**](http://mp.weixin.qq.com/s?__biz=MzU5ODY2MTk3Nw==&mid=2247490801&idx=1&sn=f8ed90043f746070c0cbd2807f5b3862&chksm=fe4192c7c9361bd1f7affdde8e062fd9112ebadbb03f416c1debf982c62b63d6cd03b71ac120&scene=21#wechat_redirect),以及推动GPT研究和工程落地的主要“幕后推手”,Brockman对此深有体会,“**它并非试图像快速致富那样昙花一现,而是一直在缓慢积累价值,才有了指数级增长带来的巨大回报。**” 22 | 23 | 人们好奇包括GPT-4、ChatGPT在内的模型在爆发前所经历的蛰伏和执着,尤其是有志于打造类GPT模型的研究者们很想知道,GPT模型是如何从最初的胚胎想法逐步被OpenAI培育成孩子的?这个孩子又将如何长成AGI?它在可预见的未来对这个世界会带来哪些变革? 24 | 25 | 对于这些疑惑,问Brockman再合适不过了。此前,在SXSW 23以及与Alexander Wang的两场对话中,他对此进行了详细阐述,OneFlow按QA形式进行了编译整理。(内容转载请联系OneFlow获得授权。) 26 | 27 | ## **1、ChatGPT的爆火** 28 | 29 | **Q:ChatGPT是如何产生的?GPT模型当初发布时显得有些违反常识,但却在某种程度上掀起了最新的AI浪潮,这与你们当初构建这些技术时的预期是否一致?** 30 | 31 | **A:**ChatGPT、GPT-3、DALL·E 2这些模型看似一夜成名,但其实构建这些模型耗费了整整五年时间,饱含多年的心血。 32 | 33 | **GPT模型的构建要从2017年发布的情感神经元论文(Neural Sentiment Neuron: A novel Neural Architecture for Aspect-based Sentiment Analysis)说起**,这篇论文的思想很新颖,不过很多人可能已经忘了。 34 | 35 | [**OpenAI研究员Alec Radford对语言非常感兴趣**](http://mp.weixin.qq.com/s?__biz=MzU5ODY2MTk3Nw==&mid=2247487005&idx=1&sn=1d6ea996356045206d9407f62840dcb8&chksm=fe41802bc936093d3ad43a320752769398ecfdc05f8fd151021e4ca489eade837d573b5647c9&scene=21#wechat_redirect),并致力于聊天机器人的研究。我们真的很喜欢Alec,非常支持他在我们去调研严肃项目时做任何他想做的事。 36 | 37 | 当时他负责的一个项目一直在训练LSTM模型,以此来预测亚马逊商品评价中的下一个字符。该模型能预测下一个字符,了解评价类型,还会像机器人一样学习,不过它也并非无所不知。 38 | 39 | 我们发现LSTM模型中的单个神经元有助于开发出SOTA情感分析分类器(sentiment analysis classifier),可以告知你文本情感(正面评价或负面评价),**这一发现听起来平平无奇,但我们非常清楚地知道,这是一个超越语法并转向语义的时刻。** 40 | 41 | 我们必须不断去推动。2017年底,Transformer问世,当时[**OpenAI联合创始人Ilya Sutskever立即发现这正是OpenAI一直在期待的模型。**](http://mp.weixin.qq.com/s?__biz=MzU5ODY2MTk3Nw==&mid=2247487005&idx=1&sn=1d6ea996356045206d9407f62840dcb8&chksm=fe41802bc936093d3ad43a320752769398ecfdc05f8fd151021e4ca489eade837d573b5647c9&scene=21#wechat_redirect)因此,尽管当时Transformer还并不完善,但我们基于它相继研发了GPT模型,基于对好的和糟糕的事实进行训练,以预测给定单词序列的下一个词。然后使用强化学习,让人类引导模型找到正确的答案。 42 | 43 | **我们内部运行的算法就是通过这些小方法来获取生存迹象(signs of life)**。对于特定的数据集,必须非常小心才能区分出真正的生存迹象,否则就难以取得进展。但如果你的直觉准确,就会知道是时候加大算力和研究人员的投入,进行模型扩展了。 44 | 45 | GPT-2的问世显然令人眼前一亮,通过函数曲线就知道模型越大,需要投入的算力和数据就越多,同时获得的工程细节就越多,曲线就变得更好了。我们的目标只是打破现有范式,不断改进模型,直到曲线趋于稳定。 46 | 47 | 一直到研发ChatGPT,我们所做的额外工作就是让模型更有“活力(alive)”,并创建了一个超级简单易用的交互界面,免费提供给所有人。 48 | 49 | **Q:ChatGPT是在去年11月底上线的,为什么会在这个节点发布?** 50 | 51 | **A:**准备发布ChatGPT时,我一直告诉团队,我们可以非常保守,比如拒绝做任何看起来有点草率的事情,最重要的是,不能在发布后的三天内就因为陷入舆论麻烦而关闭ChatGPT。 52 | 53 | 我们有数百个测试人员花了好几个月去做测试,但这与让它完全暴露在充满多样性和对抗性的真实用户使用环境中非常不同。 54 | 55 | 从2020年6月开始,我们已经做了很长时间的迭代部署,第一次开放产品的API给普通用户肯定很紧张,但我确信团队能应付自如。 56 | 57 | **Q:ChatGPT正式上线两个月内用户超过1亿,成为历史上增长最快的应用,而Facebook用了4.5年,TikTok用了9个月达到类似的成就。现在所有人都在讨论ChatGPT,为什么它会成为杀手级应用?** 58 | 59 | **A:**实际上,我经常思考这个问题,**ChatGPT背后的模型大约是在一年前研发的,所以并不是新技术**,但它的不同在于对话更具一致性,你真的可以和它对话,它会做你想要做的事。**其次,我们让用户很容易就可以体验它的能力。** 60 | 61 | 非常有趣的是,随着ChatGPT真正开始流行起来,人们可以看到,相当长一段时间内技术可能做到的事情以及实际能做的事情之间的差距。确保人们知道事物的发展方向真的很重要。对我来说,这也许是最大的收获。 62 | 63 | **Q:你认为生成式AI最有趣和最具颠覆性的用例是什么?** 64 | 65 | **A:**我想讲一个个人轶事。医疗诊治绝对是一个高风险领域。几年前,我妻子得了一种神秘的疾病,她的腹部右下方感到疼痛,会是阑尾炎吗?我们看了两个医生都认为是细菌感染,开了不同的抗生素,但都无济于事。第四个医生做了超声波检测才找到了病因。 66 | 67 | 而当我把那些症状输入到ChatGPT中,给出的答案是:第一,确保不是阑尾炎;第二,卵巢囊肿破裂,而这正是确诊的病因。但我不想让它取代医生,也不想让它告诉我去服用这种超级罕见的抗生素。 68 | 69 | **Q:ChatGPT有时会一本正经地胡说八道,就像醉酒的疯子。** 70 | 71 | **A:**确实,所以在使用过程中更要有信息甄别能力。其实ChatGPT的准确性很高,只是我们在训练过程中损坏了一些信息。我很高兴人们通过与其交流来缕清思路,只将其当做一种全天候待命的认知辅助工具。 72 | 73 | **Q:你能分享一下关于GPT模型未来版本的想法吗?它是否会更谨慎、更具创造力?** 74 | 75 | **A:**先解释下我们是如何构建这些系统的。**第一步,我们需要训练一个基础模型,它的目标只是预测下一个单词。**我们会给这个模型提供大量的文本数据,但并不会告诉它哪些信息是正确的。这个模型需要在这些文本数据中学习,并且在这个过程中必须考虑所有上下文信息来预测下一个词。所以这个模型同时也会习得偏见、意识形态和思想等信息。 76 | 77 | **第二步是进行人类反馈的强化学习(RFHL),也被称为后期训练(post training)。**在这一阶段,我们会从大量的文本数据中选择有用的数据,告诉它如何正确地处理数据。 78 | 79 | 然而,还存在一个非常重要同时又非常棘手的问题,**那就是AI应该做些什么?谁来作出这个决定?这是一个非常不同的议题**,我们正在不懈努力让它具有合法性(legitimacy)。我们发现,基础模型本身实际上是根据其不确定性进行校准的,但这对后期训练来说是一项需要解决的工程性难题。 80 | 81 | 自去年12月以来,我们已经发布了四到五个不同版本的ChatGPT,例如事实准确性和幻觉问题均已得到了改善。这得益于通过后期训练不断改进。 82 | 83 | 我相信,未来我们将会拥有更加准确、能够自我检查工作质量、知道何时拒绝、何时提供帮助的GPT系统,同时还能协助人类完成更加艰巨的任务。 84 | 85 | ## **2、构建GPT模型的信念** 86 | 87 | **Q:很多人在初次使用GPT-3时就深受震撼,尤其是模型的定性新行为(qualitatively new behaviors),而不只是模型在既定任务上的良好表现。你看到早期模型成果时是否会感到这很神奇?** 88 | 89 | **A:**当时的结果令我十分兴奋。我们只需要写出函数名称和文档字符串就能真正编写出函数,尽管不是十分复杂的函数,但它能够根据要求写出代码,做一些小小的修改就能满足需求。 90 | 91 | 有趣的是,以前我们认为模型只在特定数据分布中表现出色,一旦超出分布范围就会出现问题,而GPT-3的范式可以应用于不同的数据分布。你会发现模型具有泛化能力,而且对已知的数据,泛化能力更强。 92 | 93 | 那模型对于未知的数据的泛化能力怎么样?人类不太擅长未涉足的领域,而模型可以从大量不同配置中学习并提取有用信息,这简直不可思议。 94 | 95 | **Q:在开发GPT-3的过程中,需要投入大量的计算资源,而且实验也不一定能成功,这需要很大的信心和决心。在整个过程中,你是否怀疑过自己,或者是否相信只要不断进行尝试就能取得成功?** 96 | 97 | **A:**实现模型扩展并不是想当然的事,需要不断尝试才能找到最佳解决方案。有趣的是,当我们得到首个扩展结果时,确信这是正确的方法,可以一直推进,直至获得最佳结果。 98 | 99 | 我们研究DOTA这款游戏整整三年。一开始,我们对这款游戏一无所知,经过不断努力打败了游戏开发商内部的团队,最终成功击败职业团队。期间,我们进行模型扩展,并且解决所有bug,在每一个维度上不断迭代,从而获取更好的回报。这同样适用于GPT-2模型扩展,其迭代过程相当复杂,为此还需要分配出大量的计算资源,这需要具备坚定的信念。 100 | 101 | 另一方面,模型扩展是迭代的过程,因此你不必考虑会做出不可逆转的决定,因为每一步都能从现实中得到反馈,这样就可以从大局思考“如果这个方案成功了会怎样”。同时,还能确保你已为成功做好了准备。 102 | 103 | 不过,也不要盲目将一整年时间都花在可能不会取得预期结果的事上。**平衡这两者才是关键所在。** 104 | 105 | **Q:从DOTA和情感神经元中学到的东西是你们制胜的关键。虽然从外部看,这些零散的知识不是很直观,但将其整合在一起就为扩展和构建GPT-3指明了方向。这好像就是创新的方式:将各种实验成果整合在一起,就构建出了新事物。** 106 | 107 | **A:**这就是第一性原理的实践。 108 | 109 | ## **3、为何看好AI的发展** 110 | 111 | **Q:2017年左右,AI算法还非常弱,但你就坚信AI的能力会逐渐提升,拥有很好的发展前景,为什么你会对AI有如此乐观的态度?** 112 | 113 | **A:**在某种程度上来说,这其实是一种直觉。我在上学时就对NLP非常感兴趣,还找了一位这方面的专家,请求与他做NLP方面的研究,他同意了。他给我讲解了一些NLP领域的相关内容,但听完后觉得,NLP不是我想要的东西,因为它没有正确的特性(properties),就好像我们在NLP系统中投入了大量精力,做了大量工作,但却无法说清楚语言到底是如何运转的,仿佛缺少了某种内在的东西。相反,神经网络的运作就非常清晰,神经网络系统就像海绵一样大量吸收数据、算力,**它有正确的形状因子(form factor)。** 114 | 115 | 但我们忽略了一件事,那就是这个神经网络能否被训练,要考虑是否有足够的数据、算力、是否有足够的能力等。 116 | 117 | 2012年,Alex的论文让神经网络重获关注,我认为这是神经网络领域取得的第一个重大成果。人们在计算机视觉研究方面花了几十年的时间,但CNN的出现让这一领域有了质的飞跃。 118 | 119 | 这就好像是一些原本彼此隔绝的部门的隔绝状态一天天被打破,清楚地表明某些事情即将发生,有某种巨大的潜力正在等待被挖掘。 120 | 121 | **Q:你们是否怀疑过技术方面的选择,还是说一直都很有信心,从未动摇过?** 122 | 123 | **A:**在这个过程中,我们难免会质疑所做的选择,怀疑策略是否正确,所做的事是否正确。比如我们会进行多次计算以确定模型大小,因为犯错在所难免,必须找出这背后的原因,毕竟不能指望AI去找原因。 124 | 125 | 扩展定律(scaling law)就是一个很好的例子,我们做这个研究是为了更科学地理解模型在各个函数图轴上的提升方式,我们不断给模型提供算力和数据,但终究有限。多年以后,我们突然意识到对这条函数曲线的理解有误,因此,我们又投入了大量的token和数据去训练模型。 126 | 127 | 从下游结论来看,训练数据太少,所以得出的结论就不太对。**之后在某个时刻,你会突然意识到原来问题出在基本假设上,这样一切就都说得通了。** 128 | 129 | 我一直有一种感觉,在工作中如果坚持不懈,不断探索,做到极致,将是最激动人心的时刻,这意味着我们触及到技术领域的极限,真正做成了一些事情,同时也意味着终于能看清下一步的方向。 130 | 131 | **Q:这让我想到了Stripe公司的运营原则之一:宏观上乐观,微观上悲观。这句话很能引起共鸣,在面对技术问题时,我们必须要做好最坏的打算,但显然,从长期来看,你对自己的工作一直很有信心。** 132 | 133 | **A:**是的,这是一个充满激情与活力,拥有强大力量的领域,我们要怀有敬畏。 134 | 135 | 这些模型最初只是一堆随机数字,在数字的基础上人们发展出了超级计算机,海量数据集,我们做了算法开发等大量的工程工作,然后再进行整合。 136 | 137 | 神经网络是独一无二的技术领域,从根本上来说,它就像是一块海绵,我们只需要喂入数据,就能训练出模型,这个模型可以重复使用,可以处理跨领域的工作。而传统软件需要人工去写下所有规则,从这些规则中得到反馈,人们也许可以利用Spark集群来处理一些事务,但我并不想这样做,我对神经网络更感兴趣。 138 | 139 | **Q:在创办OpenAI之前,你担任过Stripe首席技术官,这两家企业可以说都是业内标杆,但它们有何异同?** 140 | 141 | **A:**很有趣的一点是,当这两家公司面临问题时,**采取的思维方式都是第一性原理思维。** 142 | 143 | Stripe在产品预发布时激起了一定的浪花,究其本质是我们在早期就拥有一定的客户。当时,一位做风险投资的朋友想知道产品预发布成功的秘诀。当我告诉他不过是改进了付款方式,他一脸的不可思议,但那其实就是秘密武器。 144 | 145 | **我们从第一性原理出发,即事物的本质出发去重新思考做事的方式,而非一味地照搬他人做法。我们会问自己:应该怎么做?难点在哪儿?有必要这样做吗?** 146 | 147 | OpenAI在AI领域做事的方式与之前相似。为了进军AI界,我们雇佣了很多接触过该领域的员工,不过也有人从未涉足过Ai,而是以初学者的身份进入AI界。在我看来,以这种方式进入一个未知领域能免受其常规做法的束缚,一切从零开始,排除外在因素的影响。 148 | 149 | 两家公司之间也存在差异。对Stripe而言,它开发了传统的Playbook,在思考出创新点后,就对产品进行构建、打磨,而且在构建产品的第一天就有目标客户。OpenAI则需要研究客户是谁,从2015年底开始,到2020年我们才拥有了第一款真正意义上的产品。 150 | 151 | 因此,要弄清楚做什么以及能做好什么,而对这些事情的思考都源于组织内部而非外部。 152 | 153 | ## **4、乐观看待AI的潜在风险** 154 | 155 | **Q:人们对OpenAI的研究也有很多担忧,比较忧心技术方面潜在的负面影响。人们说AI将取代我们的工作。那么,哪些职业的风险最高?** 156 | 157 | **A:**过去,人们认为AI将首先替代那些从事体力劳动的工作,但实际情况并非如此。现在,AI在认知方面的发展已经取得了巨大进步(例如写诗),但在物理性质的事物发展上却没有非常大的进步。 158 | 159 | 这表明,AI的发展进程与人们的预期相差甚远。此外,仍有一些工作无法实现自动化,这表明人类的能力比我们想象得更强大。 160 | 161 | 作为一名程序员,我的期望是能够借助工具提高工作效率。目前,我们使用的AI代码助手Copilot能够自动补全代码,对于一些不太熟悉编程语言或特定的库函数的人来说非常有用。而ChatGPT更强大,可以帮助我们编写整个函数,或者根据需求编写聊天机器人框架。 162 | 未来的编码过程将会变得更加简化,我们只需做出设计决策,而不必亲自编写每一行代码,这将大大提高工作效率,同时也可以帮助我们在职业上更进一步。 163 | 164 | **Q:如果将认知能力都外包给AI,那么人类的智力会不会有下降风险?** 165 | 166 | **A:**这也是最让我彻夜难眠的事。放在以前,这种趋势可能会令人兴奋,但我发现,人们逐渐不再喜欢阅读和思考。所以在这项新技术来临之前,我们要确保如何使其成为人类的“智力倍增器”而非“削减器”。 167 | 168 | **人类真正需要的是能为我们分解问题的“导师”,而不是帮我们全盘解决问题的AI**。正所谓授人以鱼不如授人以渔,只有这样我们才能走得更远。 169 | 170 | **Q:随着数据、算法和计算规模的不断增长,大公司会竞相构建更大、性能更好的超级计算机,而拥有更大的超级计算机就意味着比其他超级计算机更具优势,这种情况会成为未来的发展趋势吗?是否能找到一种更开放、更有用的方式,避免它成为大公司之间的竞争工具?** 171 | 172 | **A:**未来的发展趋势就像计算技术在更多领域的重演。未来仍然会出现只有少数人掌握的越来越庞大的超级计算机,能创建出常人无法构建的超级大模型,但这并不会削弱人们利用这些模型所做事情的价值。 173 | 174 | 我认为,超级强大的、具有双重用途的、极度复杂的系统,像风力涡轮机那样将分散在各处的、更加容易掌控的系统之间进行权衡是很重要的。对于非常强大的新兴技术,必须采取双重解决方案。 175 | 176 | 随着技术的发展,人们对AI的看法也发生了变化,开始发现AI真的有用。**朋友们,是时候开始构建(AI)了。** 177 | 178 | **Q:有研究表明,当前科学发展的脚步整体上在放缓,而AI相对在逐步加速甚至正走向复兴。你是否担心AI的发展在未来也会放缓?** 179 | 180 | **A:****事物总是呈S型曲线发展,而且通常会有范式转变。**Ray Kurzweil的《奇点临近》一书介绍了计算机不同行业的发展曲线,展示了各种性能的时间变化。100年来,我们差不多经历了五次不同的范式转变,才创造出了当前的计算机。我们当下在做的事情也会是S形曲线,并出现范式转变,这体现了人类的创造力。 181 | 182 | **另一方面,范式是否发生转变并不重要。**现在AI的重点是它的用途,我们希望通过AI来提升计算机的能力,让计算机发挥更大的作用,当然,它也带来了一些新问题,但总的来说,它解决的问题要比创造的问题多得多,并且改变了人类的交互方式。 183 | 184 | 在AI领域,我们取得了一些新的突破,以GitHub Copilot为例,它能在很低的时延下完成代码的自动编写,但如果时延超过了1500毫秒,那么该工具就没有人会使用。 185 | 186 | 现在有些事情人类实现不了,但可以用机器来辅助我们完成,这才是重点。如果我们正在做的事情发展进入停滞,也并不影响它们能创造的价值。 187 | 188 | **Q:你对AI发展的最大顾虑是什么?** 189 | 190 | **A:**人们对于AI的看法一直都比较有意思。如果回到十年前,你翻开任何一篇文章,或者说问街上的任何一个人关于AI的看法,一定都是负面的,人们对于AI的看法一直都比较复杂,混合着恐惧的情绪。人们有时能看到AI的潜力,有时看不到,但是大家一直在试图看清AI。 191 | 192 | 我完全赞同人们所说的,既要看到AI好的一面,也要看到坏的一面,不能做一个盲目的乐观主义者,也不能完全悲观,好像人类快要走向灭亡一样,这两种看法都是有问题的。 193 | 194 | AI发展将经历不同的发展阶段。**现在面临的最大挑战是滥用问题**,系统本身还不是那么强大,但其实问题的根源在于背后的人心,虽然文字具有强大的力量,但不会直接影响这个世界,问题出在人们的行动上。我们要在社会和技术层面找到避免滥用的方法并对系统进行监督,这至关重要。 195 | 196 | 另外,将来系统本身会变得十分强大,假设系统在没有监控的情况下与多人互动,将产生什么样的影响?对于这种情况OpenAI已经有所警觉,**我们要建造与全人类价值观相符的系统,有选择性地让特定价值观进入到系统当中**。当然,要做到这一点并不容易。 197 | 198 | ## **5、AI的未来发展方向** 199 | 200 | **Q:AI在哪些方面有值得期待的应用场景?** 201 | 202 | **A:**AI真正能做的是增强人类现有的能力,在写作、编程和娱乐等知识工作方面就是如此。**最令我感到兴奋的是,技术门槛将会降低**。对于那些有创意并想付诸实践的人来说,AI会为他们提供一个“完整的创意工作室”。专业人士也将有机会创造出比任何业余人士都更好的东西。 203 | 204 | **AI不仅不会使人们的技能消失,反而还会使生产力倍增。**比如激发人们的创造力,不会画画的人现在可以通过模型创造出各种图像,现在我们可以让自己脑海中的画面真正出现在纸面上。比如3D设计师们可以先利用DALL·E对他们想要的东西进行渲染,然后再开始制作。 205 | 206 | 很多人都看过《权力的游戏》,但我知道结局却没能遂每个人的愿。有了AI,人们就可以制作自己想要的结局,甚至将自己作为主角代入其中。有人可能会说“我并不需要”,但这就像口袋里的手机,你可以不用,但需要的时候,它就能派上用场。 207 | 208 | **Q:你怎么看待AI的未来?** 209 | 210 | **A:**AI仍然会是一个活跃且多变的领域,它的发展也许会出乎所有人的意料。我们的任务是尽可能地为AI发展提供便利。 211 | 212 | 最早一批利用GPT-3提供服务的客户估值已经达到了数十亿美元。看着模型为如此多的人创造巨大价值,是一件很有成就感的事情。 213 | 214 | 未来十年,这些模型将快速发展,应用将无处不在。**AI的发展会和互联网类似,**1990年,人们对互联网还知之甚少,21世纪初,人们开始对互联网感兴趣,这时机遇与挑战并存。现在,互联网已经成为商业发展中不可分割的一部分。 215 | 216 | **我们的任务就是开发通用人工智能,去建造出一种能够处理所有任务的全能机器,并将这一技术开发到极致,让它们在最具经济价值的工作上达到超越人类的表现。**要做到这种程度只是时间问题,当这些工具真的发展到了如此有创造性的地步,且能够超越人类的时候,它们甚至会自发地开始工作。 217 | 218 | 未来,我们还不知道AI的价值会如何分配,也不知道该如何利用AI来解决人们目前难以应对的挑战,例如气候变化、大学教育等等。 219 | 220 | **Q:这些技术出现的时机也很有意思,去年,人人都在讨论Web 3.0是加密货币(crypto),但如今看来,AI才是真正的Web 3.0。** 221 | 222 | **A:**我们会拿下Web 4.0。 223 | 224 | **Q:你提到两个非常有意思的方向,一是GPT模型等现存技术的进步,它们在商业上的应用越来越广泛,二是通用人工智能算法的持续提升。目前来看,AGI的发展方向会是怎样的?** 225 | 226 | **A:**人类很早以前就开始了对通用人工智能的研究,这点仅从神经网络的发展历史就可以看出。2012年是改变世界的一年,算力需求每年增长10倍,而且还在持续增长。回报开始变得可预期,所以我们要投入更多的资金来建造大规模的超级计算机。 227 | 228 | 通过注入更多算力、更好地利用反向传播神经网络技术,构建更强大的模型,这个流程是很固定的。但其中的细节可能会有所变化,比如你想要开发GPT模型还是Whisper、注入语音数据还是从互联网注入文本数据,这些细节可能很重要,这关系到你要做什么,要下载什么资源。**但如果放大视角看待这项技术,这又没那么重要。** 229 | 230 | 我们学会了利用扩展定律来进行所有的科学调整,务必要确保这些模型不仅聪明,而且与人类的意图保持一致。我们的目标是每年都做一些以前不可能做成的事情。 231 | 232 | **我们正在构建的东西就跟构建计算机一样。**在摩尔定律的辉煌时期,新芯片层出不穷。因为要想建立最好的计算机,只需要不断构建下一个最好的芯片,并持续对技术中的各部分进行改进。 233 | 234 | **参考文献**: 235 | 236 | [1] https://aibusiness.com/nlp/sxsw-23-openai-co-founder-shares-the-story-behind-chatgpt 237 | 238 | [2] https://www.youtube.com/watch?v=Rp3A5q9L_bg 239 | 240 | [3] https://www.youtube.com/watch?v=YNkxVDAiA1Q -------------------------------------------------------------------------------- /ChatGPT/Blog/Other/机器之心.md: -------------------------------------------------------------------------------- 1 | # 机器之心 2 | 3 | 4 | 5 | ## 2023-03-20 6 | 7 | []() 8 | 9 | []() 10 | 11 | []() 12 | 13 | []() 14 | 15 | []() 16 | 17 | ## 2023-03-19 18 | 19 | - [还在为玩不了ChatGPT苦恼?这十几个开源平替也能体验智能对话](https://mp.weixin.qq.com/s/Du9TbPSiIrSe4m9JyCokCQ) 20 | 21 | - [一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害](https://mp.weixin.qq.com/s/BSNIwA8SvQxOjwk-yTPmjA) 22 | 23 | ## 2023-03-18 24 | 25 | - [GPT-4背后的开发者:七大团队,三十余位华人](https://mp.weixin.qq.com/s/PIDqDLYoGO7xQPnaB7G6yA) 26 | 27 | - [GPT-4为通过人机验证,试图雇人给自己打工,还骗了对方](https://mp.weixin.qq.com/s/AsxnwVBt39DzGWPeRuk-1w) 28 | 29 | ## 2023-03-17 30 | 31 | - [体验过百度文心一言,也许真会超出你的预期(5个邀请码)](https://mp.weixin.qq.com/s/rRaw376VRJr3xnaSrxHhzQ) 32 | 33 | - [今天,GPT-4登陆Office全家桶,打工人的生产方式被颠覆了](https://mp.weixin.qq.com/s/f4LUa4Ef41A53_J01032Qw) 34 | 35 | - [AI绘画新思路:国产开源50亿参数新模型,合成可控性、质量实现飞跃](https://mp.weixin.qq.com/s/0nqxMNcn4ECwDiOZNpLing) 36 | 37 | - [加特技只需一句话or一张图,Stable Diffusion的公司把AIGC玩出了新花样](https://mp.weixin.qq.com/s/BhN62j-0YTZ9S9uJ6WC9YA) 38 | 39 | ## 2023-03-16 40 | 41 | - [GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)](https://mp.weixin.qq.com/s/wI0ffyhF0q2MWfc-mdBwFA) 42 | 43 | - [顶着压力,百度发布文心一言,邀请测试开启](https://mp.weixin.qq.com/s/uWYrV0NbOa6jTTcVzvqIFA) 44 | 45 | - [GPT-4技术细节保密惹争议,OpenAI首席科学家回应了](https://mp.weixin.qq.com/s/c_K5ka40Qj3yxczBA0Xq9w) 46 | 47 | - [OpenAI发布GPT-4,有哪些技术趋势值得关注?](https://mp.weixin.qq.com/s/gW-rhzxF5eeV3jd3-AR4Dw) 48 | 49 | - [GPT-4发布后,其他大模型怎么办?Yann LeCun:增强语言模型或许是条路](https://mp.weixin.qq.com/s/_8my4LEGtF782TVGQcKRPw) 50 | 51 | ## 2023-03-15 52 | 53 | - [GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?](https://mp.weixin.qq.com/s/kA7FBZsT6SIvwIkRwFS-xw) 54 | 55 | - [谷歌的又一波反击!开放大语言模型PaLM API](https://mp.weixin.qq.com/s/U2-E6jGuri8Fx-BCMx4gww) 56 | 57 | - [清华系千亿基座对话模型ChatGLM启动内测,开源单卡版模型(10个邀请码)](https://mp.weixin.qq.com/s/EMv4yTOZuoCc3oFs376EvA) 58 | 59 | - [斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现](https://mp.weixin.qq.com/s/U6ioEygg5mlVpAIb2L3cZw) 60 | 61 | ## 2023-03-14 62 | 63 | - [科技巨头持续血拼:微软豪掷数亿造ChatGPT超算,谷歌加急测试Big Bard](https://mp.weixin.qq.com/s/jY2YLeWsNIv1jgOfbJak6Q) 64 | 65 | - [ChatGPT及大模型技术大会首批嘉宾公布,我们将讨论这些话题](https://mp.weixin.qq.com/s/yWA8cr-HWsk0_2F2dpIXrA) 66 | 67 | - [真·ChatGPT平替:无需显卡,MacBook、树莓派就能运行LLaMA](https://mp.weixin.qq.com/s/7bRwX047jkZC53KYbhKARw) 68 | 69 | ## 2023-03-13 70 | 71 | - [清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下](https://mp.weixin.qq.com/s/B68hXlFxA9L5jiWiMrEEiA) 72 | 73 | - [ChatGPT开源替代来了!参数量200亿,在4300万条指令上微调而成](https://mp.weixin.qq.com/s/9Av3nhJLrcYAsBW9vVGjTw) 74 | 75 | - [AI开发大一统:谷歌OpenXLA开源,整合所有框架和AI芯片](https://mp.weixin.qq.com/s/p8daMLluTQAEuj_HNzRA6Q) 76 | 77 | - [适配Diffusers框架的全套教程来了!从T2I-Adapter到大热ControlNet](https://mp.weixin.qq.com/s/3cIr0KWrIE9TaVYV-6q4gQ) 78 | 79 | ## 2023-03-12 80 | 81 | - [Yann LeCun:不在乎社会规范,ChatGPT离真正的人还差得远](https://mp.weixin.qq.com/s/A7jmMYiQO6xhC33PwhMcHw) 82 | 83 | - [RRC detection、CornerNet、M2Det、FOCS…你都掌握了吗?一文总结目标检测必备经典模型(三)](https://mp.weixin.qq.com/s/7qRj0Qz7m3peAuz8e09Awg) 84 | 85 | - [7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT](https://mp.weixin.qq.com/s/dOpHrZMbcyI7L8-LK5fhmw) 86 | 87 | ## 2023-03-11 88 | 89 | - [会看图的「ChatGPT」来了!给张图就能聊天、讲故事、写广告](https://mp.weixin.qq.com/s/uZiYpKQOxyXaVX_3wNq1DQ) 90 | 91 | - [GAN的反击:朱俊彦CVPR新作GigaGAN,出图速度秒杀Stable Diffusion](https://mp.weixin.qq.com/s/bYvrijfdH2wYNl65lX6ywQ) 92 | 93 | ## 2023-03-10 94 | 95 | - [做中国版ChatGPT,还有一个「隐身」大玩家](https://mp.weixin.qq.com/s/O9Jp9JIu34TEpSNF1J_bMw) 96 | 97 | - [微软:多模态大模型GPT-4就在下周,撞车百度?](https://mp.weixin.qq.com/s/Se3xzcF6rtgcI7YXYgDZ8Q) 98 | 99 | - [终于,乔姆斯基出手了:追捧ChatGPT是浪费资源](https://mp.weixin.qq.com/s/MyiLZYE_hcL27i_qtm7lSA) 100 | 101 | - [视觉ChatGPT来了,微软发布,代码已开源](https://mp.weixin.qq.com/s/w0jx7FKNw2y-LCY3OtlPJg) 102 | 103 | ## 2023-03-09 104 | 105 | - [ChatGPT模型参数≠1750亿,有人用反证法进行了证明](https://mp.weixin.qq.com/s/lzIQ50GCKGEPu1Yzs-7FnQ) 106 | 107 | ## 2023-03-08 108 | 109 | - [Prompt Engineering全面自动化:LeCun看了沉默,ChatGPT看了直呼内行](https://mp.weixin.qq.com/s/aj8Ls463jpF92ssn6Acwzg) 110 | 111 | - [5620亿参数PaLM-E,最大多模态模型控制机器人,谷歌把具身智能玩出新高度](https://mp.weixin.qq.com/s/s0YEUCHlix-AVQAU_gtlZA) 112 | 113 | - [ChatGPT产品潮来了:融入Slack、读PDF,创新不断](https://mp.weixin.qq.com/s/S1DUJrNK5_H5krvHotOwHQ) 114 | 115 | ## 2023-03-07 116 | 117 | - [大神李沐加入AI大模型创业,导师Alex Smola是创始人](https://mp.weixin.qq.com/s/YwYHJblMpI5e8vSRvv2mVw) 118 | 119 | - [ChatGPT一路狂飙,我们的安全带在哪儿?](https://mp.weixin.qq.com/s/bRpdsH9S0Y9J7rq4vigjhw) 120 | 121 | - [ChatGPT版Office来了:微软下周四举行发布会,CEO亲自上](https://mp.weixin.qq.com/s/2Ki9R623g2myWddym8UJBA) 122 | 123 | - [谷歌的野心:通用语音识别大模型已经支持100+语言](https://mp.weixin.qq.com/s/fHr2vL-w4JtYt5utcZrbsw) 124 | 125 | ## 2023-03-06 126 | 127 | - [鸡兔同笼都能算错的ChatGPT,陶哲轩发现了它的价值](https://mp.weixin.qq.com/s/Pbcm6pOe9r4cxJazj4q8_Q) 128 | 129 | ## 2023-03-05 130 | 131 | - [Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星](https://mp.weixin.qq.com/s/kImwfWWtXMmEDVOhJZ4dJg) 132 | 133 | - [谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind](https://mp.weixin.qq.com/s/_6EEYJal_ryTPDQvqdyvtQ) 134 | 135 | - [UCL汪军呼吁创新:后ChatGPT通用人工智能理论及其应用](https://mp.weixin.qq.com/s/RN3ZeL961ax13cJif-KAKA) 136 | 137 | - [7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?](https://mp.weixin.qq.com/s/K-6guflYTfasV7OkUcU2Lg) 138 | 139 | ## 2023-03-04 140 | 141 | - [Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了](https://mp.weixin.qq.com/s/yUvRhewaETxIzQnZl-Xp9Q) 142 | 143 | - [打造中国版ChatGPT,这是国内最有实力的一批NLP团队与人才(更新版)](https://mp.weixin.qq.com/s/B-n_qz110HmhSP66NKRCiQ) 144 | 145 | - [MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型](https://mp.weixin.qq.com/s/zZMZb3cVgOrYVck5bAVjuQ) 146 | 147 | ## 2023-03-03 148 | 149 | - [大模型的「狂飙时代」,以开源之力推动「新Linux底层操作系统」](https://mp.weixin.qq.com/s/lCg8uqjTZQe0jnX8sYF6MA) 150 | 151 | - [谁能做出中国版ChatGPT?怎么做?](https://mp.weixin.qq.com/s/AMGDwZ3KbhISEdqRuS8CsA) 152 | 153 | ## 2023-03-02 154 | 155 | - [终于,OpenAI开放ChatGPT API,成本直降90%,百万token才2美元](https://mp.weixin.qq.com/s/9YhDaLpbun-NwIILJk7Ijw) 156 | 157 | - [ControlNet star量破万!2023年,AI绘画杀疯了?](https://mp.weixin.qq.com/s/lkR03NnKSF00q6W_Lc9D1w) 158 | 159 | - [在任务栏开始与ChatGPT版必应聊天,Windows 11发布重大更新](https://mp.weixin.qq.com/s/kKItQ0kAlU6rGq7ZJGqw0g) 160 | 161 | ## 2023-03-01 162 | 163 | - [微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务](https://mp.weixin.qq.com/s/aWqF25SwGTAtG5ZroPpu7w) 164 | 165 | - [这些技术,ChatGPT和它的潜在竞争者们都在用](https://mp.weixin.qq.com/s/ccbm3_e3-hF0pwpmGtOmMg) 166 | 167 | - [ICLR 2023 Oral | Batch Norm层等暴露TTA短板,开放环境下解决方案来了](https://mp.weixin.qq.com/s/7WyeNA3v6kvl6qC-u70Ekg) 168 | 169 | ## 2023-02-28 170 | 171 | - [立即体验!直接可用的中文版ChatGPT来了](https://mp.weixin.qq.com/s/uV4rjy3aBaHLnT5RsLqbZA) 172 | 173 | - [腾讯类ChatGPT保密项目爆出,张正友带队研发「混元助手」](https://mp.weixin.qq.com/s/4etGUyj7ldA9CBIhegBu6Q) 174 | 175 | - [虽迟但到,Meta宣布成立AIGC产品研发组](https://mp.weixin.qq.com/s/wfSOrwHh6v53HhH4DYzBtQ) 176 | 177 | - [从BERT到ChatGPT,百页综述梳理预训练大模型演变史](https://mp.weixin.qq.com/s/g4Ye8yrhqGUVT6OKGo5UPw) 178 | 179 | ## 2023-02-27 180 | 181 | - [关于AGI与ChatGPT,Stuart Russell与朱松纯这么看](https://mp.weixin.qq.com/s/TL1TCfQMetQh2nM3XykRBg) 182 | - [学习ChatGPT,AI绘画引入人类反馈会怎样?](https://mp.weixin.qq.com/s/zwSqH6-XYQJvVjD64v6Leg) 183 | - [当我还在和ChatGPT聊天,有人已经开始用它来控制机器人干活了](https://mp.weixin.qq.com/s/XxvpH3Kaa-z5gmNSmd5y3g) 184 | 185 | ## 2023-02-26 186 | 187 | - [7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNet](https://mp.weixin.qq.com/s/Rl1oM4WTxzj02dXdrisaUQ) 188 | 189 | ## 2023-02-25 190 | 191 | - [这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3](https://mp.weixin.qq.com/s/Qj8smMCKzNS_oC6Mm0u_5A) 192 | - [OpenAI发布通用人工智能路线图:AGI比想象中来得更快](https://mp.weixin.qq.com/s/zu1a9p3nDTdk_lZ_-y8XFA) 193 | 194 | ## 2023-02-24 195 | 196 | - [ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」](https://mp.weixin.qq.com/s/rNVhDjFeamxYiqo8dfYclw) 197 | - [智能EDA浪潮即将来袭,ChatGPT如何助力设计芯片](https://mp.weixin.qq.com/s/JyveUDEYKLrFolfCFLqhhw) 198 | - [安卓手机「跑」Stable Diffusion创新纪录,15秒内出图](https://mp.weixin.qq.com/s/r7nLz2coQIG8yeiWApKTfw) 199 | 200 | ## 2023-02-22 201 | 202 | * [打造中国版ChatGPT,这是国内最有实力的一批NLP团队与人才](https://mp.weixin.qq.com/s/DVDvpz-_YUYttqD_lCUVuA) 203 | * [跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了](https://mp.weixin.qq.com/s/ZdW_jZov3bAcGc_9SqiL-A) 204 | * [颠覆传统图文?ChatGPT写书放网上卖,人类作者:该管管了](https://mp.weixin.qq.com/s/vSJGsSTUj219FNjMlW3OYg) 205 | ## 2023-02-21 206 | * [复旦发布中国版ChatGPT:MOSS开启测试冲上热搜,服务器挤爆](https://mp.weixin.qq.com/s/LjwSozikB6CK5zh2Nd2JHw) 207 | * [ChatGPT国产化:ChatYuan元语对话大模型升级](https://mp.weixin.qq.com/s/FtXAnrhavA5u7hRyfm8j6Q) 208 | * [用GPT生成《超级马里奥》游戏关卡,近9成关卡可玩](https://mp.weixin.qq.com/s/ik3iSDudcSle3XkudARA-g) 209 | ## 2023-02-20 210 | * [Stuart Russell专访:关于ChatGPT,更多数据和更多算力不能带来真正的智能](https://mp.weixin.qq.com/s/BB1CG_KD7M7pSST2j47tLw) 211 | * [为什么所有GPT-3复现都失败了?使用ChatGPT你应该知道这些](https://mp.weixin.qq.com/s/fWe9RtP8qe8uxMSukeAjKA) 212 | * [AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用](https://mp.weixin.qq.com/s/vsvXgqhy1lE_RC5SYtRSow) 213 | * [ICLR 2023 Spotlight | 2D图像脑补3D人体,衣服随便搭,还能改动作](https://mp.weixin.qq.com/s/Qek9Of2fJty1nzfEnuQWJA) 214 | ## 2023-02-19 215 | * [全面碾压AdamW!谷歌新出优化器内存小、效率高,网友:训练GPT 2果然快](https://mp.weixin.qq.com/s/QK7mBxmjkNfWyLKiNhTL2Q) 216 | * [跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文](https://mp.weixin.qq.com/s/s5WrGn_dQyHrsZP8qsI2ag) 217 | * [ChatGPT成功背后的技术原因及其对生命科学领域的启发](https://mp.weixin.qq.com/s/3X4_wM2g0FxwtIb1rfsIvQ) 218 | * [7 Papers | 超越GPT 3.5的小模型;对ChatGPT摸底考试](https://mp.weixin.qq.com/s/OSM-SsBxSw_sqHLU13YMTQ) 219 | ## 2023-02-18 220 | * [ChatGPT版必应疑似「发疯」,微软紧急限制回答数目,植入广告赚钱提上日程](https://mp.weixin.qq.com/s/wNmVSzB12WHW88jBRTHuew) 221 | * [怎样让ChatGPT在其内部训练神经网络?先让它想象自己有4块3090](https://mp.weixin.qq.com/s/KkLddZhoLssXHxAj8dVGYw) 222 | ## 2023-02-17 223 | * [中国版ChatGPT角逐战,国际权威机构为百度背书](https://mp.weixin.qq.com/s/ptntK00S5FydZrJnqT8puQ) 224 | * [OpenAI揭秘ChatGPT升级计划:你找到的bug都在改了](https://mp.weixin.qq.com/s/kAMzfa9BgxUIWOfwEXjhuQ) 225 | ## 2023-02-16 226 | * [ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿](https://mp.weixin.qq.com/s/iZoHn8sf5dgGxViRkHcsSg) 227 | * [被ChatGPT带飞的AIGC,能为垂直产业做些什么?](https://mp.weixin.qq.com/s/ORZ8Oe33-WoHIn0iLvaXlg) 228 | * [超越GPT 3.5的小模型来了!](https://mp.weixin.qq.com/s/gv_FJD0aIpDNbky54unj2Q) 229 | * [独一档技术分享:低成本复现ChatGPT完整流程](https://mp.weixin.qq.com/s/vAPCwuMv0PvRxMqQ_JiWYw) 230 | * [「诺奖风向标」2023年斯隆奖出炉:韩松、李远志等清华校友获奖](https://mp.weixin.qq.com/s/Jfvo73FYZno32kIJW3X03Q) 231 | ## 2023-02-15 232 | * [ChatGPT真的是「通才」吗?杨笛一等人给它来了个摸底考试](https://mp.weixin.qq.com/s/I2HP16_W2yNV7iUiZ0frvw) 233 | * [走,去搞ChatGPT!谷歌AI学者纷纷跳槽OpenAI](https://mp.weixin.qq.com/s/lx7_EwUNOIi7EpwbkBTOMg) 234 | * [开源方案复现ChatGPT流程!1.62GB显存即可体验,单机训练提速7.73倍](https://mp.weixin.qq.com/s/j8gvD_4ViRE4WQaQlcnmrQ) 235 | ## 2023-02-12 236 | * [全面学习 ChatGPT,机器之心准备了 89 篇文章合集](https://mp.weixin.qq.com/s/Q7MxzgY_8nLjhwxGtQwLlg) 237 | * [Opera跟进引入ChatGPT,侧边栏生成文章简短摘要](https://mp.weixin.qq.com/s/eY_dJfPtYpjarUvNm2ocQg) 238 | * [7 Papers | AAAI 2023杰出论文奖;AI生成文本检测方法综述](https://mp.weixin.qq.com/s/l0QEDEVOtJBAUSKHZlw4uQ) 239 | ## 2023-02-09 240 | * [禁止大型语言模型胡编乱造,给点外部知识,推理靠谱的很](https://mp.weixin.qq.com/s/3_vnvI0-jkLvBr0iyR9tKg) 241 | * [这段音频火爆外网!文字、图片一键生成逼真音效,音频界AIGC来了](https://mp.weixin.qq.com/s/fphIJ13RWRIgGNTwYO06bw) 242 | * [加入最火OpenAI,特斯拉前AI总监Andrej Karpathy自宣回归](https://mp.weixin.qq.com/s/S5Q9BWD90-_UqLP81iFttA) 243 | * [谷歌版ChatGPT首秀,第一个Demo就大翻车,市值暴跌7000亿](https://mp.weixin.qq.com/s/1mkAlJbtYCmQcz_mV9cdoA) 244 | ## 2023-02-08 245 | * [冒充人类作者,ChatGPT等滥用引担忧,一文综述AI生成文本检测方法](https://mp.weixin.qq.com/s/FcEscGHEaZpq7deUVZln7g) 246 | * [工程与产品的胜利,深度剖析ChatGPT和聪明地设计基础架构](https://mp.weixin.qq.com/s/8P2qpre-bevMNyvuwqHgfQ) 247 | * [今天,微软重新发明搜索引擎:首款ChatGPT搜索来了](https://mp.weixin.qq.com/s/bZlpr4BhL4wpiE0TQovuxg) 248 | ## 2023-02-06 249 | * [再记公式弱爆了!用ChatGPT处理Excel问题,效率狂升](https://mp.weixin.qq.com/s/lVsHB2lc4DgWZI2S5SiWLQ) 250 | * [ChatGPT版必应搜索悄悄上线又下线,但评测已经出炉](https://mp.weixin.qq.com/s/cV3kY7qSaPnsJpE_ZLFhbA) 251 | * [ChatGPT还有什么不会?招行信用卡用它写出金融业首篇AIGC](https://mp.weixin.qq.com/s/ZYpeHJE4vJLPwNCaSJ30cg) 252 | ## 2023-01-27 253 | * [用ChatGPT作弊,小心被抓,反剽窃水印技术让学生噩梦提前到来](https://mp.weixin.qq.com/s/URO054sLrNtVKryyv0TxGA) 254 | * [理工科神器Wolfram|Alpha注入超强计算知识,补足ChatGPT短板](https://mp.weixin.qq.com/s/mJ6n9s78JNy42zU4FFpJWw) 255 | ## 2023-01-26 256 | * [将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可](https://mp.weixin.qq.com/s/Wvnsz83EDbKryHR7dpF8zA) 257 | * [Nature给学术界立规矩:ChatGPT等大模型不可以成为作者](https://mp.weixin.qq.com/s/DzT-JpBKS1-1zUYaqJUV7A) 258 | ## 2023-01-25 259 | * [Yann LeCun:ChatGPT缺乏创新,没什么革命性;网友:早点离开Meta做出点突破吧](https://mp.weixin.qq.com/s/qCppJc23H_5-Hd3ZCGr05g) 260 | ## 2023-01-24 261 | * [向OpenAI追资数十亿美元,微软押注AI突破,瞄准与谷歌竞争](https://mp.weixin.qq.com/s/QoT3WFHp3VhSp5xo8s9l7g) 262 | * [DALL-E发明者受访:我对其两年来产生的影响感到惊讶](https://mp.weixin.qq.com/s/yzZnt4BGx2Vn7FTEDEGSqQ) 263 | ## 2023-01-22 264 | * [ChatGPT背后的标注人:在非洲只管「鉴黄」,时薪不到两美元](https://mp.weixin.qq.com/s/Spv1fu5C6XTvCLKLjNjrPQ) 265 | ## 2023-01-21 266 | * [为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读](https://mp.weixin.qq.com/s/MM_VLWmrrxev1zWuLKZZUQ) 267 | ## 2023-01-20 268 | * [AIGC时代已来,跨模态内容生成技术发展得怎么样了](https://mp.weixin.qq.com/s/Gw7kcvgFZsAg4ReWv_bD_w) 269 | ## 2023-01-18 270 | * [特斯拉前AI总监教你手搓GPT大模型,教学视频已出](https://mp.weixin.qq.com/s/RxoR7kdkpBT0i7HTlIO6vA) 271 | ## 2023-01-17 272 | * [爵士乐、放克钢琴曲,Stable Diffusion玩转跨界、实时生成音乐](https://mp.weixin.qq.com/s/hbsaf4zDucwaDtmPVbwY2g) 273 | * [3秒克隆你的声音,微软推出DALL-E表亲VALL-E](https://mp.weixin.qq.com/s/JfnP6lbvcPp3g0MMPD8ktg) 274 | * [微软又出大招,ChatGPT将加入云服务](https://mp.weixin.qq.com/s/vUV0I81r0w1-xsIPqHdwJA) 275 | -------------------------------------------------------------------------------- /AGI/OpenAI_Team.md: -------------------------------------------------------------------------------- 1 | # OpenAI Team 2 | 3 | **原文**:https://blog.gregbrockman.com/my-path-to-openai) 4 | 5 | 在高中毕业后的间隔年里,我曾认真学过编程。我读过图灵的《计算机器与智能》一书,并深受启发:代码能理解那些编写代码者所不能理解的东西。于是我准备着手写一个聊天机器人。那么写出来有多难呢? 6 | 7 | 我想创建的是能与人正常对话的机器人,但找了很久,似乎没有人能做出这种机器人。我很快便搁置了这个想法,转而专注于创建那些能真正产生影响的系统。 8 | 9 | ## **1、大学研究项目** 10 | 11 | 读大学时,我对编程语言很感兴趣,由此便进入了AI的大门。编译器和静态分析器能“理解”那些我理解不了的程序,于是我便常用其来做一些非常有用的事情,比如快速生成代码并检验其是否正确。 12 | 13 | 我一直想潜下心来去做编程语言研究,却总是受到新的创业点子和新同事的影响。其实我的同事人都还不错,但这些创业想法可就不敢恭维了。无论在哈佛还是麻省理工,我都努力向那些优秀的人看齐,主动融入他们,并与之共建有用的东西。 14 | 15 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVobDYV7fbWKQdHPelbh9EMaH1cGQicL0a9HXhrWNYRwceLUzpLE6ia0wSQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)*Greg Brockman* 16 | 17 | 大三那年,我发现在校创业没有意义,所以我就和那些创业者面谈,汲取经验。与此同时,我终于开始了编程语言研究之旅。我从一位教授那里获得了研究经费,并招募了一些朋友进行静态缓冲超时检测项目。 18 | 19 | 几周后,帕洛阿托(Palo Alto)一家尚未启动的初创公司联系了我。一般情况我会直接删除这种邮件,但此时我也正准备与初创公司会面,所以我们团队就立即点开了邮件,此时我也发现,他们也正是我一直在寻找的那种人。于是我离开学校,这也意味着我们的缓冲超时检测项目就此搁置了。 20 | 21 | ## **2、Stripe生涯** 22 | 23 | 那家公司就是现在的Stripe。在我的帮助下,公司规模从4人扩大到了250人;在我离开后的一年里,又继续扩大到了450人(当然,这份功劳与我无关)。 24 | 25 | 此时公司的发展正蒸蒸日上,无论有我没我,都会继续继续做伟大的事情,所以我准备离开Stripe。**我想做的是与优秀之人同行做些有意义的事情,但开发者基础架构并不是那个我想穷尽余生之力去解决的问题。** 26 | 27 | 然而,我终于还是找到了那个我想解决的问题:**创造出安全的人类级别的AI(human-level AI)**。只要这项技术能真正为人类所用,我想一定会引起轰动,并给世界带来积极影响。 28 | 29 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVoRD14iaEsOI63p3bSTZGEx21xUxPIaFJVlWIk08MMbgm4OibibfaMbicXlA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)*(Greg B**rockma**n与Sam Altman)* 30 | 31 | 在我最终决定离职之前,Patrick说[**Sam Altman有很好的局外人视角**](http://mp.weixin.qq.com/s?__biz=MzU5ODY2MTk3Nw==&mid=2247490581&idx=1&sn=94e950d97a3046c77c968b6516a59756&chksm=fe419223c9361b35401315c352ea728318a41fcc638b69082c2eb30e9265df6d5a011126e4b6&scene=21#wechat_redirect),而且见过很多跟我情况类似的人,应该能给我一些好的建议,让我去和他谈谈。 32 | 33 | 在与Sam交谈五分钟后,他说:看来你是完全准备好离职了,后续事宜有什么需要我帮助的吗? 34 | 35 | 我说AI是我的首选(这绝对是我的人生目标),但还不确定现在是否就是做这件事的最佳时机,而且我也不知道最佳的贡献方式是什么。 36 | 37 | 他回答:我们一直在考虑通过YC(译者注:Y Combinator,美国著名创业孵化器)建立一个AI实验室,你或许可以跟我们合作。 38 | 39 | ## **3、研究深度学习** 40 | 41 | 大约在这一两周后,我就离开了Stripe,开始着手深入研究AI,想要更好地了解该领域正在发生的事情。仅从Hacker News上的帖子(例如*http://karpathy.github.io/2015/05/21/rnn-effectiveness/*)就可以看出:人们对AI尤其是对深度学习的关注度越来越高。但在进入该领域时,我仍然是持有合理怀疑的,在投身AI之前,我想确定一切都是可行的。 42 | 43 | 我的第一个目标是弄清楚深度学习到底是什么。然而事实证明这并非易事。例如,deeplearning.net上只是说“深度学习是机器学习研究的一个新领域,引入深度学习的目的是使其更接近于最初的目标——人工智能”。虽然这听起来很令人兴奋,然而却并没有说清楚到底什么是深度学习。 44 | 45 | 幸运的是,我有一些从事AI行业的朋友:Dario Amodei(*曾任OpenAI研究主管,现Anthropic创始人和CEO*)和Chris Olah(*曾任OpenAI技术主管,现为Anthropic联合创始人*)。我向他们征求了一些意见,他们给了我一些很好的入门资源,其中最有用的是Michael Nielsen写的书。我读完后还在Kaggle上练习了新学到的技能(在第一次比赛时我就拿到了第一名!)。 46 | 47 | 一路走来,我不断遇到AI领域中那些超级聪明的人,并与我大学时最聪明的一些朋友重新建立了联系,例如现在在该领域工作的Paul Christiano(*曾任OpenAI研究员,现Alignment Research Center创始人*)和Jacob Steinhardt(*加州伯克利分校助理教授*)。我觉得这是一个强烈的信号。 48 | 49 | 我了解得越多,就越相信AI已准备好散发自己的光芒。深度学习的能力简直令人难以置信,比如,我们现在可以极其准确地对图像中的目标进行分类(2014年的XKCD就已经实现),语音识别非常精准,还可以生成十分逼真的图像。不过虽然这些技术足够新,但到现在为止还没有改变人们的生活方式,它们如今的影响还仅限于支持某些产品实现特定功能。 50 | 51 | 有一位朋友曾开发过Facebook News Feed。还记得我曾对他说过这样一句话:**简单的算法,大量的数据****。每个人都试图兜售很酷的新AI算法,但实际上只需要扩展逻辑回归(logistic regression)就会非常奏效。**而他对此持怀疑态度。然后我就拿出了谷歌翻译App,将其设置为飞行模式,并向他演示了如何直接翻译图片上的文字。他对此印象颇深,并承认简单的算法对此无济于事(这背后主要是深度学习在发挥作用,不过这不是重点,重点是它有效。) 52 | 53 | ## **4、创业想法诞生** 54 | 55 | Sam Altman在2015年6月联系我,问我是否已经想好下一步该做什么了,我告诉他目前的计划是明年开一家AI公司。然后我们打了通电话,他提到他们正在推进YC的AI项目。我问:实验室的目的是什么?“**建立安全的人类级AI**”,他说。 56 | 57 | 在那一刻我就知道,他很适合当我下一家公司的合作伙伴。**现在很少有人敢于明确尝试构建人类级AI。我意识到,有时候一项成就只需要有个胆大的人宣布目标,然后合适的人就会加入其中。** 58 | 59 | 大约一个月后,Sam在门洛帕克(Menlo Park)举办了一场晚宴,参加宴会的有Dario、Chris、Paul、Ilya Sutskever、Elon Musk、Sam和其他一些人。 60 | 61 | 我们讨论了AI领域的现状、目前离人类级AI还有多远以及实现人类级AI还需要的东西等等。整场对话围绕着“什么样的组织可以最好地确保AI的有益性”展开。 62 | 63 | **答案很明显:必须****是非营利组织,因为没有任何利益冲突来影响其使命。此外,这样组织还必须保持在研究的前沿(根据Alan Kay的名言,“预测未来的最好方法就是创造未来”)。为此,该组织需要有世界上最好的AI研究人员。** 64 | 65 | 所以问题就变成了:是否有可能从头开始创建一个拥有最优秀AI研究人员的实验室?我们的结论:还是有机会。 66 | 67 | 这是我第一次见到Elon和Ilya,我对他们的印象非常深刻。Elon充满了好奇心,他真诚地征求他人意见并用心倾听每一份回答;而Ilya则是技术基础的源泉,他是一位头脑清晰的技术专家,知识广博,视野开阔,并且总是能够深入到当前系统局限性和功能的具体细节。 68 | 69 | 我请Ilya对深度学习给出一个好的定义,以下是他的回答: 70 | 71 | 有监督深度学习的目标是解决几乎所有“将X映射到Y”形式的问题。X包括图像、语音或文本,Y包括类别甚至句子。将图像映射到类别、将语音映射到文本、将文本映射到类别等等,如此种种,深度学习都是非常有用的,而且其他方法无法做到。 72 | 73 | 深度学习一大吸引人的特点是它在很大程度上是独立于其他领域之外:**在一个领域中学到的许多东西可以适用于其他领域。** 74 | 75 | 深度学习模型中建立了抽象层,这些抽象可以完成工作,但很难理解它们究竟是如何做到的。模型通过使用反向传播算法(简单且高效)逐渐改变神经网络的突触强度来学习。因此,我们可以用极少的代码来构建出大规模复杂的系统(因为我们只需要编写模型和学习算法的代码,而非最终结果)。 76 | 77 | 晚宴结束后,Sam送我回城里。我们都认同值得在AI领域做点什么。我知道,只有当有人愿意全心全意地弄清楚这究竟是什么,谁又能够加入其中,我们的愿景才会成为现实。那就让我来当这样的人吧。 78 | 79 | 所以,我明天又要构建一些有影响力的东西了。 80 | 81 | ## **5、OpenAI的愿景** 82 | 83 | 那次晚宴上,我们谈论了成立OpenAI实验室。虽然每个来参加晚宴的人都各抒己见,但并没有一个清晰的愿景,而Elon和Sam则提出了自己的想法:OpenAI旨在构建安全的人工智能以造福人类。我也想尽可能贡献自己的力量,为了如愿以偿,便开始和Sam一起组建团队。 84 | 85 | **不过我们缺少了一个核心要素,即一位AI技术远见者,其直觉和想法可以帮助我们取得突破。** 86 | 87 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWo91ujtw5Vfw3Aib4wIvGFteBdlbDMzmr201TahbWvxDdxre2cLS9C2dBo18NzLfibJeda0Ff53wOdw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 88 | 89 | *(从左至右依次为Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton)* 90 | 91 | 显然,Ilya Sutskever是最佳人选。Ilya可以说是一位艺术家,他常常通过机器学习来表达自己的感受(有时也会通过绘画来表达)。Geoffrey Hinton(深度学习教父)曾告诉我,**AlexNet之所以能引发一场计算机视觉深度学习革命,在于Alex Krizhevsky高超的GPU编码技能及Ilya的信念**,即深度神经网络必定会在ImageNet竞赛中获胜。(Geoff对自己贡献的管理技巧感到无比自豪。Alex非常讨厌写论文,Geoff告诉他,他在ImageNet上的性能每提高1%,他就可以把论文推迟一周。结果Alex拖延了15周。) 92 | 93 | 一直以来,我都认为自己只能与相识多年的朋友共创公司。然而事实并非如此。八月下旬,我和Ilya在山景城共进晚餐,当时我就知道我们会一起合作,在此之前,我们也只在七月见过一次。我和Ilya聊得十分投机,尽管我对机器学习研究的了解不多,他对工程和团队建设的认识也没有那么深入,但我们对彼此的成就印象十分深刻,也希望能够相互学习。 94 | 95 | 我们交流了彼此的看法、汲取了彼此的长处。Ilya认为,顶级研究人员希望在人工智能组织工作,而该组织致力于为世界创造最佳成果。在我看来,要想解决一些棘手问题,则需将私营企业的资源与学术界的使命相结合。 96 | 97 | 若无外界干预,人工智能将会像自动驾驶汽车一样发挥自身的作用。一旦人工智能的潜力得以证实,人们就会与之展开合作,而后则是一场场技术竞赛。不过,人类级别的人工智能将会是一种与众不同的变革性技术,有其独特的风险和收益。我们看到了这一机遇:**在人工智能领域展开合作,汇集众多顶尖研究人员,以取得史上最重大的科技突破。** 98 | 99 | Ilya和我一直在讨论团队组建方案,直到该方案得以落实。期间,**我们讨论了战略(即将从事什么工作)、文化(想雇用的人员,即同等重视工程和研究的人员)和策略(举办每日阅读小组)。**Alan Kay与我们共进晚餐时,向我们讲述了施乐帕洛阿尔托研究中心(Xerox PARC)的故事,包括Alto的诞生及用硬件“在未来生存”,这些硬件在十年内将花费1000美元。 100 | 101 | 事后,Ilya对用餐期间的谈话做了巧妙总结:“虽然Alan的话我只听懂了一半,但令人振奋不已。不过这顿饭帮我们验证了许多假设,即怎样才能构建一支能将工程与研究相结合的有影响力的团队。 102 | 103 | ## **6、早期团队的招募** 104 | 105 | 由于Ilya还在谷歌工作,因此无法帮忙招聘,这一工作就落到了我身上。8月至11月,由我负责创办团队。不过,我对人工智能并不熟悉,不清楚如何招募优秀的研究人员。我首先关注的是7月参加过晚宴的人,但不能确认具体人选。 106 | 107 | 下一步,便是通过人际网络与这些人取得联系,并依次寻求他们的推荐,这与我以往的招聘方式有所不同。**对于初创公司而言,首要挑战总是要向候选人“兜售”使命,但在OpenAI,使命立刻引发大家的共鸣。于我而言,挑战在于如何说服候选人相信这个未成形的组织。** 108 | 109 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVoEJB28fj90pvAVDsIDib0dE52ggUXrFEcZ6UTSZfdiafTGMHRmhvOsfPg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 110 | 111 | 人工智能领域顶尖人才的人际网络对我帮助很大。一位朋友引荐我认识Andrej Karpathy和Wojciech Zaremba(*OpenAI联合创始人*),由于我并未从事该领域工作,他们对我说的话表示怀疑。Yoshua Bengio又将我引荐给Durk Kingma(*曾任OpenAI研究科学家,现在谷歌研究团队*),当时后者对于我的提议表示很感兴趣,不过这种兴趣转瞬即逝。真正的转折点是John Schulman(*OpenAI联合创始人、研究科学家*)的评价,我跟他聊到这一组织的成立,他表示这样的组织正是他所追寻的,能将学术界的开放与使命同私企的资源相结合,因此加入了我们。John的支持也引起了Andrej和Wojciech的关注。 112 | 113 | 招聘工程师相对容易一些。Trevor Blackwell是一位机器人专家,也是YC的合伙人,他一直在与Sam讨论我们正在计划的疯狂想法。Vicki Cheung(*现Gantry联合创始人*)是在我们成立赞助机构“YC Research(*现为OpenResearch*)”之后申请加入的。那时,我们虽未表明研究领域是AI,但她深受YC Research构架的鼓舞,并表示很乐意参与我们团队的所有工作。 114 | 115 | 11月初,虽然我们对创始团队有了更深入的了解,但仍然需要让大家正式加入进来。在Sam的建议下,我们邀请了所有候选人去户外漫步。期间,人人都真切地表达了内心想法、观点,才思泉涌(实际上,该地也是Andrej提出Universe之地)。回程中,一路上交通堵塞。不过几乎没人留意到这一点,因为大家聊得太投入了。 116 | 117 | ![图片](https://mmbiz.qpic.cn/mmbiz_jpg/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVop8PicZjNBxAk4qybpJmfQzbyvI5KBNyPkRAKLiawEwZQcKHzDVSfARHA/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1) 118 | 119 | 我们给此次活动的参与者都发了offer,并将offer的截止日期设置为12月1日,这样我们就可以在12月初的NIPS(NeurIPS)机器学习会议上发布成员加入的消息。 120 | 121 | “月末”就这样开始了。Sam、Elon还有我和每个人都聊了聊,主要是让大家相信这件事的真实性。除了一名完全无意涉足人工智能的工程师外,其他候选人都接受了我们的offer。 122 | 123 | Fred Brooks在《人月神话》一书中提及了Robert Heinlein的故事,该故事讲述了“登月”项目。该项目的总工程师总会被运营任务分散注意力,例如关于运输车或电话的决策,这种情况一直持续到他收到一份报告,据报告显示不再让他负责所有与技术无关的任务。 124 | 125 | 这一故事给我留下了印象深刻,我认为它同样适用于构建人工智能的项目。**技术领导除了做实际技术工作以外,同时还应该亲自做决策。**我不知道自己的工程技能何时才能派上用场,不过在此期间,我决定尽我所能帮Ilya分担与研究无关的任务。 126 | 127 | 2016年1月4日,我们整个团队来到第一间办公室(也就是我的公寓)开始工作。讨论中,John和Ilya转身打算在白板上写点些什么,却发现这儿没有白板。我立即给他们买了一块白板,还有一些办公用品。 128 | 129 | ![图片](https://mmbiz.qpic.cn/mmbiz_jpg/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVoTmMG4WU4zeWGEmUAibMQsdmdlzNf2xNVsgbkhUGZjCMtZ1TNpJO5MTA/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1) 130 | 131 | *我们的第一间办公室(配有白板)* 132 | 133 | 在一月剩下的时间里,我负责组织团队,帮忙确定哪些人负责哪些工作,以及团队想达成的目标。我们讨论了研究人员需要具备什么品质,践行公司理念,设计并确保面试顺利进行。此外,我们还谈论了愿景、工作方式以及想要达成的目标。我和Vicki购买了服务器,创建了Google Apps帐户,同时对我们12月启动的Kubernetes集群进行了维护。 134 | 135 | 余下的时间,我阅读了Ian Goodfellow(GAN网络发明者)的深度学习书籍(并写下了书评,由于我的评论比其官方评审员的评论更加全面,给他留下了深刻印象。因此,这也不失为一种招聘策略)。 136 | 137 | ## **7、Gym库** 138 | 139 | 比起使用新的数据集,使用一种新的算法通常能解决机器学习中的问题,Wojciech建议构建一个库来形成强化学习环境的标准(实际上是动态数据集),现在称之为Gym。这个代码库的质量很快成为我们迭代速度的高阶位(high-order bit)。二月底,我和John讨论了Gym的公开发布时间。按照目前的发展情况,他认为可能要到今年年底才能发布。 140 | 141 | ![图片](https://mmbiz.qpic.cn/mmbiz_jpg/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVoJMNtibkz5YPl5XAYYaic0Gl8iaPvVaGd6JoquDPQw86bRnQXfDXBjSsvw/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1) 142 | 143 | *(我们正在用机器学习训练Fetch机器人。Gym支持控制物理机器人和模拟机器人。)* 144 | 145 | 一时之间,工程学成了研究进展的瓶颈。Ilya与我互换了角色,由他负责行政工作,这样我就可以专注于技术工作。和John考察了这项工作之后,我们知道在四月底之前就能构建好Gym。 146 | 147 | 在Stripe时,我发现了一个能够直接创建软件系统的可重复模式,即专注于软件,排除一切干扰,从早工作到晚。这样一来便能激励大家贡献自己最好的作品(重要的是,是以输出质量来衡量而不是工作时间)。这是我感觉最有活力的时候:编程就如魔法变成现实一般,我所想象和描述的事情都将成为可能。这种模式产生了Stripe信用卡保险库(2010年构建完毕,也就是在我假期回家的两周内完成的)、信用卡授权流程(在三周内就能建成,而银行构建周期却需要6-12个月)和夺旗赛(通常我和其他人都要花三周的时间)。从战术上讲,我可以选择一个“试发行”日期和“正式”发布日期,间隔一两周;我从未选择过“试发行”日期,但从未错过“正式”发布日期。 148 | 149 | 随之而来的是从未面临过的挑战。由于我并非该领域的专家,起初,引起了很多摩擦。我会构造一个抽象的框架来帮助Wojciech的工作顺利进行,而John会发现这一举动阻碍了他的工作进程。但很快,我就了解到哪些决定会影响研究的工作流程(例如人们如何记录指标)以及哪些细节研究人员不会关注(例如人们如何录制视频)。**在确定了案例对研究的重要性之后,要保持一定的谦逊,才能做出最佳选择。**我通常会提出五个可能的备选方案,John则会指出其中有四个方案都不行。但大多数设计决策可以通过软件工程的直觉做出,而无需深入了解相关领域。 150 | 151 | 幸运的是,我不是一个人。大约在Gym发布的前六周,曾与我在Stripe一起研究CTF 3的Jonas Schneider联系了我。短短几天时间,我们就在Gym上建立了合作关系。因为他人在德国,所以我们通过每日交接最终成功地完成了该项目。对于已经建立好工作关系的人来说,这真的很奇妙,若一切从头开始,我们不会保持如此紧密的工作关系。 152 | 153 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVoY32gSCrHWEkdH8z5UWpAxtldxgdS4fK5icYvJqYWr1tWsMuRgquzJ5A/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 154 | 155 | *(Gym发布后不久,我们在ICLR(国际表征学习大会)上分发OpenAI的T恤。)* 156 | 157 | 总的来说,**机器学习系统可视为机器学习的核心之一**——通常是一种高级算法,要想理解该算法,至少需要阅读过几章Ian的书——涉及大量软件工程的内容。工程可以围绕数据进行改组,提供输入和输出的封装器,或调度分布式代码,这些都会都以黑盒形式与核心(core)连接。我们在工程和研究方面作出的努力达到一定程度时,机器学习就会取得进步。工程方面每多一分努力(例如减少Universe延迟),我们的模型问题就会逐渐变得更容易,并且有机会完成当前研究。 158 | 159 | ## **8、Universe平台** 160 | 161 | 在今年4月Gym上线后,我和Ilya开始调整组织流程。Sam和Elon都会到访公司,提出一些指导意见,我们会根据其指导来确定团队的结构及目标。 162 | 163 | ![图片](https://mmbiz.qpic.cn/mmbiz_jpg/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVoPC1bpRzeMhlMKT0jndzf9zK8EPtticY1poVVDVWJ9IJZE8a0L08Ps3w/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1) 164 | 165 | *(团队在第一间办公室工作的场景。当时办公室有白板,只是图片中未显示。)* 166 | 167 | 多样、复杂的AI环境是必不可少的。Andrej提出了一个不错的建议,即创建一个Agent来控制Web浏览器,但这与Selenium测试工具有所冲突。我开始考虑使用VNC,以允许Agent从像素驱动整个桌面。 168 | 169 | 但我们发现,这种方法存在许多风险。例如,2013年DeepMind发布的Atari文章提出,他们花了50个小时从像素训练Pong游戏,我们的环境将比Pong更难。即使是做小规模的实验,我们也需要花几天时间,而且不会取得任何进展。因此,我们设定了一个降低内部风险的目标,即让Agent在一小时内学会Pong(如今我们已取得了突破:十分钟内便能解决Pong遇到的问题)。 170 | 171 | 就像构建Gym时那样,我专注于构建VNC系统,现称之为Universe。与Gym不同的是,该项目并非旨在支持我们现有的研究方式,而是提出全新的问题。关于这一点,我们每个团队都有负责人,他们负责照顾自身团队的成员,我们的工程师Jie Tang已开始带头招聘。因此,行政这一重担并没有完全落在Ilya身上。这十分幸运,因为这样Ilya就能为该风险项目的首个版本构建Agent。 172 | 173 | 一个从整个动作空间随机抽样的Universe Agent(即随意点击、按键)。更多表现良好的Agent请参阅Universe发布的帖子。 174 | 175 | Universe项目耗时相当长,因此,需要合理分配时间来运营项目。我找到了一个平衡点,编码时,我会将时间进行划分。一次会议会扼杀整个上午/下午的生产力,若上午和下午都有会议,我将精疲力竭,从而导致晚间的编码效率大大降低。因此,我开始将会议时间限制在清晨或午餐后,且每天的会议次数低于三次,隔天的会议次数不超过一次。 176 | 177 | 搭建Universe本身就是一项系统研究工作:**虽然高级规范很简单(允许Agent使用键盘/鼠标/屏幕),但从来没有人尝试过构建类似的系统。**长期以来,人类一直可以用VNC控制一台远程机器,但还无法实现以编程方式同时控制数十台机器。 178 | 179 | 当我们需要衡量系统的端到端延迟时,Catherine Olsson和我构建了一个系统来将时间戳嵌入图像中。有时挑战不是技术上的:当研究因为训练数据有限而受阻时,Tom Brown在24小时内就组建了一个外包团队来玩游戏。有时候挑战也可能很难以理解,比如当Jonathan Gray注意到由于外包人员的笔记本电脑CPU较低端,游戏动态可能会与AI有所不同。 180 | 181 | 一天,当我正在努力重组一些JSON基准规范时,我意识到:我们需要重新构建这些规范,因为没有人从未尝试过在数千个游戏中对单个Agent进行基准测试。**在OpenAI,做艰苦的工作也是最基本的。** 182 | 183 | 在接下来的几个月里,由Dario Amodei和Rafał Józefowicz负责Universe的研究工作。他们都是夜猫子,我也和他们一起熬过了很多个夜晚,解决研究中遇到的问题。有时我也想躺在床上睡觉,但每修复一个Bug都会使研究加速几个小时。**每个人的工作中都有一些非常有用的东西,能让研究人员提出人类此前从未有过的问题。** 184 | 185 | ![图片](https://mmbiz.qpic.cn/mmbiz_jpg/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVoribxRGqpIfO2j9S7KRGbPygicvR1YzviaFTb5169CXSz63Gwp2aI05Drw/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1) 186 | 187 | *Universe团队在办公室开会* 188 | 189 | 到发布时,Universe团队已经有约20个人了。Universe现在是一个旗舰项目,也是我们研究战略的核心部分。**Universe的例子恰好说明“工程”是如何成为当今ML研究的瓶颈**,这也让我知道为什么有那么几天只想读Ian的书了。 190 | 191 | ## **9、下一步发展方向** 192 | 193 | 我们现在是一个拥有四十人的公司,需要有人全力来优化团队。自OpenAI成立以来,我们一直在寻找合适的首任技术经理。几个月前,Sam向我介绍了一位特别出色的工程执行人:Erika Reinhardt。Erika曾在Planet Labs担任产品工程总监,现在在和Sam一起运营voteplz.org。在Planet Labs时,Erika是对端到端卫星成像系统了解最深的人之一。她工作努力,自驱力强,总能把事情做好,前同事都说她是所能遇到的最聪明的人。Sam和我就准备邀请她加入公司。 194 | 195 | ![图片](https://mmbiz.qpic.cn/mmbiz_jpg/lBhAE42wKWoQYHRUYBicLecxbqW9HBMVoSopYhLfLjSY1B1XLhGlXXv9x1BKQlGSecXdiapfxwqpTLr9ibIhR0x6w/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1) 196 | 197 | *公司团建,2016年10月* 198 | 199 | 但在选举会和Universe发布会上与我们合作时才是她最具魅力的时刻,她发现她的领导技能在这种环境中非常适用。她告诉我:在看到OpenAI在参议院举办的首次AI听证会上发言的那一刻,她就下定决定要加入OpenAI。当时OpenAI说:**我们正处于重大技术变革的开端,此时最重要就是要把握时机。** 200 | 201 | 在Stripe时,Marc Hedlund和我常会遇到他在之前的许多公司中都遇到的问题,所以他喜欢开玩笑说所有公司都一样。就这一点而言,确实有现实依据:**如果将范围缩小一点,就会发现公司都是围绕一个目标来把人组织起来。但每个公司要解决的问题又不一样,这又决定了公司之间会有所差异。** 202 | 203 | 大多数初创公司都是先创造出一种技术,然后随着时间的推移对其进行运营和扩展。**OpenAI是创造新技术的工厂,这意味着我们必须构建公司来创造新事物。**我们需要维护基础设施和大型代码库,但它们又满足了我们快速行动、创新和通过结合软件工程和机器学习研究来达到新高度的需求。 204 | 205 | 在OpenAI当CTO的这段时光里,我做的正好是我最喜欢做的事:写代码。**但即便如此,人仍然是我关注的焦****点,所以我在OpenAI的故事是与社会的故事,而不是与技术的故事。** 206 | 207 | 在未来,我们团队要继续携手并进,共同应对海因莱因短篇小说中“卡车或电话”的挑战,OpenAI才能持续发展。在此,我向Ilya、Sam、Elon以及为OpenAI付出过的每一个人表示衷心的感谢。 -------------------------------------------------------------------------------- /GPT4/Official/GPT4_Technical_Report_zh.md: -------------------------------------------------------------------------------- 1 | # GPT4_Technical_Report_zh 2 | 3 | 我们创建了 GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。我们花了 6 个月的时间使用我们的对抗性测试程序和 ChatGPT 的经验教训迭代[对齐](https://openai.com/research/instruction-following) GPT-4,从而在真实性、可操纵性和拒绝超出安全方面取得了有史以来最好的结果(尽管远非完美)。 4 | 5 | 在过去的两年里,我们重建了整个深度学习堆栈,并与 Azure 一起从头开始为我们的工作负载共同设计了一台超级计算机。一年前,我们训练 GPT-3.5 作为系统的第一次“试运行”。我们发现并修复了一些错误并改进了我们的理论基础。结果,我们的 GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为我们能够提前准确预测其训练性能的第一个大型模型。随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。 6 | 7 | 我们正在通过 ChatGPT 和 API(有[候补名单](https://openai.com/waitlist/gpt-4-api))发布 GPT-4 的文本输入功能。为了准备图像输入功能以获得更广泛的可用性,我们正在与[一个合作伙伴](https://www.bemyeyes.com/)密切合作。我们还开源了[OpenAI Evals](https://github.com/openai/evals),这是我们用于自动评估 AI 模型性能的框架,允许任何人报告我们模型中的缺点,以帮助指导进一步改进。 8 | 9 | ## **能力** 10 | 11 | 在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。为了了解这两种模型之间的区别,我们在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。我们通过使用最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买 2022-2023 年版本的练习考试来继续。我们没有针对这些考试进行专门训练。模型在训练期间看到了考试中的一小部分问题,但我们认为结果具有代表性——有关详细信息,请参阅我们的[技术报告](https://cdn.openai.com/papers/gpt-4.pdf)。 12 | 13 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAqzcLbhNFCDKAewhX4bnoKSqLf78ZEPGgzlHGwIq6tswoW0ZibZic2FxQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAHlDIXcwVYxPicTjkTLMJPzTsd5p7eibmdnYDyiaSysgrD5UpQk9HsJd0g/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAiclwRk5oaFuLcziao7VcjwWrBGnO7Ej9PcBmyngDkl9X9iahmQGx79xww/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAYpeOkIwx7kQNUEl1kBE10qxwrfQibxRsbSkiahEusfsnx16A1MfRL6WA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 14 | 15 | 我们还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,其中可能包括特定于基准的制作或额外的训练协议: 16 | 17 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicALDjjCPsWUyh9pia9fhMGkONQzCrunyQAZyq6GkFOffvlBd1kHmpDczg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 18 | 19 | 许多现有的 ML 基准测试都是用英语编写的。为了初步了解其他语言的能力,我们使用 Azure Translate(参见[附录](https://openai.com/research/gpt-4#appendix))将 MMLU 基准——一套涵盖 57 个主题的 14,000 个多项选择题——翻译成多种语言。在测试的 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言: 20 | 21 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAybFMEVUlVViaVdQveicJuO4AMjvEbWdk8TdNHMCk208ftdw3qEJQjsYA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 22 | 23 | 我们也在内部使用 GPT-4,对支持、销售、内容审核和编程等功能产生了巨大影响。我们还使用它来帮助人类评估 AI 输出,开始我们[对齐策略](https://openai.com/blog/our-approach-to-alignment-research)的第二阶段。 24 | 25 | ### **视觉输入** 26 | 27 | GPT-4 可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。具体来说,它在给定由散布的文本和图像组成的输入的情况下生成文本输出(自然语言、代码等)。在一系列领域——包括带有文本和照片、图表或屏幕截图的文档——GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少量镜头和[思维链](https://arxiv.org/abs/2201.11903)提示。图像输入仍然是研究图像预览,不公开。 28 | 29 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAC5Kt23tdZ36AQawJOoWewzderJm65EX5HmLX92A5xsLggGdrgolnNg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAMw6Wkhn6JQ9iaSZGlWXicz6rrMthTRLvOep36aickheTeX53S6Q4TLYPQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicANjE8H1InON7KEc6e5Ra4Hn9ZMwGRYqmxkVsjFScoZujx6lkDyQ8ncg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAHJuXOCoXzD3SOHAnRogqDmQrnuxem75el9lIs1RxibDiaphNfZxeZF7w/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAicptCJe7Z6ROicgkpHZVe2L8bjNaEaGRrnJetpJDWvdRiaWv8SHDjhS0g/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicA0GubFlCT7en870NPmvDKV8jYLNPKoMhnibCAPhvH8N9fWX0I2okdbfA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicA09lGN2DFft2n9ggQkiaU3iaFBQFormkNs91g5eQCPdaxudQJLt9jsMLw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 30 | 31 | 我们通过在一套狭义的标准学术视觉基准上对其进行评估来预览 GPT-4 的性能。然而,这些数字并不能完全代表其能力范围,因为我们不断发现该模型能够处理的新的和令人兴奋的任务。我们计划很快发布进一步的分析和评估数据,并彻底调查测试时间技术的影响。 32 | 33 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicANYhA63wrZ5icDy6vsTCbMWxWjcg4YEfhd7thiclexXXmRCQViaN6SyrQA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 34 | 35 | ### **操纵性** 36 | 37 | 我们一直致力于我们关于[定义 AI 行为](https://openai.com/blog/how-should-ai-systems-behave)的帖子中概述的计划的各个方面,包括可操纵性。与具有固定冗长、语气和风格的经典 ChatGPT 个性不同,开发人员(以及很快的 ChatGPT 用户)现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 的风格和任务。系统消息允许 API 用户在[一定范围](https://platform.openai.com/docs/usage-policies)内显着定制他们的用户体验。我们将在这里不断改进(特别是知道系统消息是“越狱”当前模型的最简单方法,即对边界的遵守并不完美),但我们鼓励您尝试一下并让我们知道您认为。 38 | 39 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAVbZu0DovdNxCBdDgS0FqgvcT1XyffAiazhXjDToRiauZYroTuiblEuSEg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAXXoHwNUK5B9I1EwdTFlubhKOE12FbztpmqBZjtBeuiby8fq7ZiciaQXIg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAJrdrzcePzFicsSiaDsBCSZ3icRUncHQ5JKaicBOVtyEPgnSpNJ0wfKeZyA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAXoIpUWmvc6ltibYQXt1XYsIfRO8D6HQZZvibc7Nl1NhgNNTibdlM5jp5w/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAZcicrhnKyibhoPSDcdh2KoK5gno4wDUqsYpbpfY1BaiamNwjIbTiaGgosw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAksoy2BIGSOCOAHxPURXM4unUurqNJ9PyEhIRibicZ0YBFNFTJtxTZMsQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 40 | 41 | ## **限制** 42 | 43 | 尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是,它仍然不完全可靠(它“幻觉”事实并出现推理错误)。在使用语言模型输出时应格外小心,特别是在高风险上下文中,使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文的基础或完全避免高风险使用)。 44 | 45 | 虽然仍然是一个真正的问题,但 GPT-4 相对于以前的模型(它们本身在每次迭代中都在改进)显着减少了幻觉。在我们的内部对抗性真实性评估中,GPT-4 的得分比我们最新的 GPT-3.5 高 40%: 46 | 47 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAHtakK4YjgicYw9w7ArFEfCtR1ONrL05ENHZqpgNTRM5FVDhDzKasAlg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 48 | 49 | 我们在 TruthfulQA 等外部基准测试方面取得了进展,它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案配对,这些答案在统计上很有吸引力。 50 | 51 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicA4HPYiaibMnWfBVtD6rkkcodpjjibBkpxic38yc7QZQOfqaxdd7abcfzNIw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 52 | 53 | GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在[RLHF](https://openai.com/research/learning-from-human-preferences)后训练(使用与[GPT-3.5](https://openai.com/blog/chatgpt)相同的过程)之后,存在很大差距。检查下面的一些例子,GPT-4 拒绝选择俗语(你不能教老狗新把戏),但它仍然会遗漏细微的细节(猫王不是演员的儿子)。 54 | 55 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAfIyNbHjb7aP9VWQeyYBHiamtdUQm5OiaYgnNDsfhNEJiaM0D9NWWjFpvA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 56 | 57 | 该模型的输出可能存在各种偏差——我们在这些方面取得了进展,但还有更多工作要做。根据我们[最近的博客文章](https://openai.com/blog/how-should-ai-systems-behave),我们的目标是让我们构建的 AI 系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内进行定制,并就这些范围应该是什么获得公众意见。GPT-4 普遍缺乏对绝大部分数据中断后(2021 年 9 月)发生的事件的了解,也没有从经验中吸取教训。它有时会犯一些简单的推理错误,这些错误似乎与跨多个领域的能力不相称,或者在接受用户明显的虚假陈述时过于轻信。有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。GPT-4 也可能自信地在其预测中犯错,在可能出错时不注意仔细检查工作。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过我们目前的训练后过程,校准减少了。 58 | 59 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicA2ictRvia3lXIBVO1w8WzcBDDLbl28JAzJ1w5aDCaGOMse86o4C7sQLXA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 60 | 61 | ## **风险与缓解措施** 62 | 63 | 我们一直在对 GPT-4 进行迭代,以使其从训练开始就更安全、更一致,工作包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监控和执行。 64 | 65 | GPT-4 会带来与之前模型类似的风险,例如生成有害建议、错误代码或不准确信息。但是,GPT-4 的附加功能会带来新的风险面。为了了解这些风险的程度,我们聘请了 50 多位来自 AI 对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。他们的发现特别使我们能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于我们对模型的缓解和改进;例如,我们收集了额外的数据来提高 GPT-4 拒绝有关如何合成危险化学品的请求的能力。 66 | 67 | GPT-4 在 RLHF 训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出(如我们的[使用指南所定义](https://platform.openai.com/docs/usage-policies/disallowed-usage))。奖励由 GPT-4 零样本分类器提供,该分类器根据安全相关提示判断安全边界和完成方式。为了防止模型拒绝有效请求,我们从各种来源(例如,标记的生产数据、人类红队、模型生成的提示)收集了多样化的数据集,并在两者上应用安全奖励信号(具有正值或负值)允许和不允许的类别。 68 | 69 | 与 GPT-3.5 相比,我们的缓解措施显着改善了 GPT-4 的许多安全特性。与 GPT-3.5 相比,我们已将模型响应不允许内容请求的倾向降低了 82%,并且 GPT-4 根据我们的政策响应敏感请求(例如,医疗建议和自我伤害)的频率提高了 29% 70 | 71 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicA77afWzOGiaoge3DcCkAFZtggDzaNSfYH6cW9GibkYEBnRyCBOKKuUROQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAQHIrgOxILEUoIJLJkzAAab8fJ9ObhF9IiaLBXxPdia8X2kPfE9iaVAOtA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 72 | 73 | 总的来说,我们的模型级干预增加了引发不良行为的难度,但这样做仍然是可能的。此外,仍然存在生成违反我们[使用指南](https://openai.com/policies/usage-policies)的内容的“越狱” 。随着人工智能系统“每个代币的风险”增加,在这些干预中实现极高的可靠性将变得至关重要;目前,重要的是用部署时安全技术(如监控滥用)来补充这些限制。 74 | 75 | GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作,以改进我们理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估。我们很快将分享更多关于 GPT-4 和其他人工智能系统的潜在社会和经济影响的想法。 76 | 77 | ## **训练过程** 78 | 79 | 与以前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词,并且使用公开可用的数据(例如互联网数据)以及我们已获得许可的数据进行训练。这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。 80 | 81 | 因此,当出现问题提示时,基本模型可以以多种可能与用户意图相去甚远的方式做出响应。为了使其与护栏内的用户意图保持一致,我们使用[强化学习和人工反馈 ( RLHF )](https://openai.com/research/learning-from-human-preferences)来微调模型的行为。 82 | 83 | 请注意,该模型的能力似乎主要来自预训练过程——RLHF 不会提高考试成绩(如果不积极努力,它实际上会降低考试成绩)。但是模型的控制来自训练后过程——基础模型需要及时的工程设计甚至知道它应该回答问题。 84 | 85 | ### **可预测的扩展** 86 | 87 | GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。我们开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,我们通过从使用相同方法训练但使用 10,000 倍更少计算的模型进行推断,准确预测了 GPT-4 在我们内部代码库(不是训练集的一部分)上的最终损失: 88 | 89 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAEpDVogOoPN0DwtqnPmiaZvUUSCdDkmH7vAfiaBibdicVibibpW8zKg1VOICA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 90 | 91 | 现在我们可以准确地预测我们在训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标。例如,我们成功预测了[HumanEval](https://github.com/openai/human-eval)数据集子集的通过率,从计算量减少 1,000 倍的模型推断: 92 | 93 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAtqpxaibF8bqHbnLd9dAJWe2M4zyy3RCtaLicjllZ74iat4UyqqhPm4sfQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 94 | 95 | 有些能力仍然难以预测。例如,Inverse Scaling Prize 是一项竞赛,目的是寻找一个随着模型计算量的增加而变得更糟的指标,而[hindsight neglect](https://www.alignmentforum.org/posts/iznohbCPFkeB9kAJL/inverse-scaling-prize-round-1-winners#_The_Floating_Droid___for_hindsight_neglect_10shot)是赢家之一。就像最近的[另一个结果](https://arxiv.org/abs/2211.02011)一样, GPT-4 扭转了趋势: 96 | 97 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAkee1PMQddjCvPS3Nuyg2AtrIIL4GfRK8ichVF9HhzRxgHEh0DniaVkOQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 98 | 99 | 我们认为,准确预测未来的机器学习能力是安全的重要组成部分,但相对于其潜在影响而言,它并没有得到足够的重视(尽管我们受到了多个机构的努力的鼓舞)。我们正在加大力度开发方法,为社会提供更好的未来系统预期指导,我们希望这成为该领域的共同目标。 100 | 101 | ## **OpenAI 评估** 102 | 103 | 我们正在开源[OpenAI Evals](https://github.com/openai/evals),这是我们的软件框架,用于创建和运行基准测试以评估 GPT-4 等模型,同时逐个样本地检查它们的性能。我们使用 Evals 来指导我们模型的开发(识别缺点和防止回归),我们的用户可以应用它来跟踪模型版本(现在将定期发布)的性能和不断发展的产品集成。例如,Stripe 使用 Evals 来补充他们的人工评估,以衡量其基于 GPT 的文档工具的准确性。由于代码全部开源,Evals 支持编写新的类来实现[自定义评估逻辑](https://github.com/openai/evals/blob/main/docs/custom-eval.md)。然而,根据我们自己的经验,许多基准测试都遵循少数“模板”之一,因此我们还包括了内部最有用的模板(包括“模型分级评估”模板——我们发现 GPT- 4 令人惊讶地能够检查自己的工作)。通常,[构建新评估](https://github.com/openai/evals/blob/main/docs/build-eval.md)的最有效方法是实例化这些模板之一并提供数据。我们很高兴看到其他人可以使用这些模板和更普遍的 Evals 构建什么。我们希望 Evals 成为共享和众包基准测试的工具,代表最广泛的故障模式和困难任务。作为要遵循的示例,我们创建了一个[逻辑难题](https://github.com/openai/evals/blob/main/evals/registry/evals/logic.yaml)eval,其中包含十个 GPT-4 失败的提示。Evals 还与实施现有基准兼容;我们已经包含了几个实施学术基准的[笔记本](https://github.com/openai/evals/tree/main/examples)和一些集成[CoQA](https://github.com/openai/evals/blob/main/evals/registry/evals/coqa-ex.yaml) (的小子集)的变体作为示例。我们邀请所有人使用 Evals 来测试我们的模型并提交最有趣的示例。我们相信 Evals 将成为使用和构建我们模型的过程中不可或缺的一部分,我们欢迎直接贡献、问题和[反馈](https://github.com/openai/evals)。 104 | 105 | ## **ChatGPT Plus** 106 | 107 | ChatGPT Plus 订阅者将在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。我们将根据实践中的需求和系统性能调整确切的使用上限,但我们预计会受到严重的容量限制(尽管我们将在接下来的几个月内进行扩展和优化)。根据我们看到的流量模式,我们可能会为更高容量的 GPT-4 使用引入新的订阅级别;我们也希望在某个时候提供一些免费的 GPT-4 查询,这样那些没有订阅的人也可以尝试一下。 108 | 109 | ## **API** 110 | 111 | 要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的[ChatCompletions API](https://platform.openai.com/docs/guides/chat/chat-vs-completions)),请[注册我们的候补名单](https://openai.com/waitlist/gpt-4)。我们今天将开始邀请一些开发人员,并逐步扩大规模以平衡容量与需求。如果您是研究 AI 的社会影响或 AI 对齐问题的研究员,您还可以通过我们的[Researcher Access Program](https://share.hsforms.com/1b-BEAq_qQpKcfFGKwwuhxA4sk30)申请补贴访问。 112 | 113 | 获得访问权限后,您可以向 gpt-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段),随着时间的推移,我们会在制作新版本时自动将其更新为我们推荐的稳定模型(您可以固定当前版本通过调用 gpt-4-0314,我们将支持到 6 月 14 日)。定价为每 1k 个提示令牌 0.03 美元和每 1k 个完成令牌 0.06 美元。默认速率限制为每分钟 40k 个令牌和每分钟 200 个请求。 114 | 115 | gpt-4 的上下文长度为 8,192 个标记。我们还提供对我们的 32,768-上下文(约 50 页文本)版本 gpt-4-32k 的有限访问,该版本也将随着时间的推移自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日). 定价为每 1K 提示令牌 0.06 美元和每 1k 完成令牌 0.12 美元。我们仍在提高长期上下文的模型质量,并希望得到有关它在您的用例中表现如何的反馈。我们正在根据容量以不同的速率处理对 8K 和 32K 引擎的请求,因此您可能会在不同时间获得对它们的访问权限。 116 | 117 | ## **结论** 118 | 119 | 我们期待 GPT-4 成为一个有价值的工具,通过为许多应用程序提供动力来改善人们的生活。还有很多工作要做,我们期待通过社区在该模型之上构建、探索和贡献的集体努力来改进该模型。 120 | 121 | ## **附录** 122 | 123 | MMLU 问题示例,已翻译成其他语言。请注意,我们使用一致的选择标记 (A–D):![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAg0kgxBicK9UnCpOI0JKYERicAbetYwpNTfhhZcrib9VOGGjb2SYLYl0aw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)![图片](https://mmbiz.qpic.cn/mmbiz_png/N5aX12H1SicmSpspibqCHeAfG3Vmib8kpicAal69ID1hIg3icjGHCG4QlO5oCvGqZfibNH7kjHjSTgC5fAIrADMCbibpw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 124 | 125 | **GPT4相关资料** 126 | 127 | **官网地址**:*https://openai.com/product/gpt-4* 128 | 129 | **论文下载**:https://cdn.openai.com/papers/gpt-4.pdf 130 | 131 | **直播地址**:https://www.youtube.com/watch?v=outcGtbnMuQ 132 | 133 | **直播速记稿:**https://event-cdn.baai.ac.cn/file/file-browser/MhyB8XrtJbfpwiKYzGSCMJDS2kQ3mJ6y.pdf 134 | 135 | **贡献者**:https://openai.com/contributions/gpt-4 136 | 137 | **开源Evals****框架**:https://github.com/openai/evals 138 | 139 | **必应运行**:http://bing.com/new 140 | 141 | **更多地址:** 142 | 143 | **View system card**:https://cdn.openai.com/papers/gpt-4-system-card.pdf 144 | 145 | **Try on ChatGPT Plus**:https://chat.openai.com/chat 146 | 147 | **Join API waitlist**:https://openai.com/waitlist/gpt-4-api 148 | 149 | **Rewatch developer demo livestream**:https://youtube.com/live/outcGtbnMuQ?feature=share -------------------------------------------------------------------------------- /ChatGPT/Blog/ChatGPT_Technology/Lessons_Learned_from_ChatGPT_Recurrence.md: -------------------------------------------------------------------------------- 1 | # Lessons Learned from ChatGPT Recurrence 2 | 3 | 原文:https://jingfengyang.github.io/gpt 4 | 5 | **为什么所有公开的对 GPT-3 的复现都失败了?我们应该在哪些任务上使用 GPT-3.5 或 ChatGPT?** 6 | 7 | 对于那些想要复现一个属于自己的 GPT-3 或 ChatGPT 的人而言,第一个问题是关键的。第二个问题则对那些想要使用它们的人是重要的(下文提到 GPT-3,主要是指 GPT-3.5 或 InstructGPT 的最新版本,除了一些指向 GPT-3 原文的情况)。 8 | 9 | 这篇博客包括我在仔细重新检查了一系列文章的细节之后给出的总结,以及对上面两个问题我个人的思考。这些文章包括且不限于:GPT-3, PaLM, BLOOM, OPT, FLAN-T5/PaLM, HELM 等。均为个人意见,仅供参考。如果您有更可靠的参考资料或者更实际的经验,欢迎指正。 10 | 11 | **1** 12 | 13 | **为什么所有公开的对GPT-3的复现都失败了?** 14 | 15 | 这里,我称之为“失败”,是指训练得出模型有接近 GPT-3 或者更大的参数量,但仍无法与 GPT-3 原始文献中报告的性能所匹配。在这一标准下,GPT-3 和 PaLM 是“成功”的,但这两个模型都不是公开的。而所有的公开模型(例如:OPT-175B 和 BLOOM-176B)都在一定程度上“失败”了。但是我们仍然可以从这些“失败”中吸取一些教训。 16 | 17 | 我们需要注意的是,假如能够多次尝试各种不同的训练设置,开源社区可能最终可以复现 GPT-3。但截至目前,训练另一个版本的 OPT-175B 的开销仍然太过高昂——对于如此大规模的模型,一次训练就将需要在约 1000 个 80G A100 GPU 上花费至少 2 个月的时间(数据来自于 OPT 的原始文献)。 18 | 19 | 尽管一些文章(例如 OPT-175B 和 GLM-130B)声称,它们在一些任务上能够匹配甚至超过原始的 GPT-3 的表现,在更多 GPT-3 已经测试过的任务上,这种声明仍然是存疑的。同时,根据大多数使用者在更多样的任务上的经验,以及 HELM 的评估来看,最近的 OpenAI GPT-3 的 API 表现也仍然比这些开源模型更好。 20 | 21 | 尽管它背后的模型可能使用了指令微调(instruction tuning, 正如 InstructGPT 那样),类似的使用了指令微调的 OPT 版本(OPT-IML)和 BLOOM 版本(BLOOMZ)也仍然远比 InstructGPT 和 FLAN-PaLM(PaLM 的指令微调版本)要差得多。 22 | 23 | 根据文章的细节,相比 GPT-3 和 PaLM 的成功,有多个可能的原因导致了OPT-175B 和 BLOOM-176B 的失败。我将其分为两个部分:预训练数据和训练策略。 24 | 25 | **预训练数据** 26 | 27 | 让我们首先观察 GPT-3 是如何准备和使用预训练数据的。GPT-3 在共计 300B 的 token 上进行训练,其中 60% 来自经过筛选的 Common Crawl,其它则来自webtext2(用于训练 GPT-2 的语料库)、Books1、Books2 和维基百科。 28 | 29 | 更新版本的 GPT-3 还用了代码数据集进行训练(例如 Github Code)。每个部分的占比并不与原始数据集的大小成比例,相反,具有更高质量的数据集被更加频繁地采样。导致 OPT-175B 和 BLOOM-176B 失败的,可能是以下三个难点,它们使得开源社区难以收集到类似的数据: 30 | 31 | \1. 第一点是一个具有良好性能的用于**筛选低质量数据**的分类器。它被用于构建 GPT-3 和 PaLM 的预训练数据集,但在 OPT 和 BLOOM 的训练中却没有被采用。一些文章已经展示,一个用更少但质量更高的数据集训练的预训练模型,可以在性能上超过另一个用更多的混合质量数据集训练的模型。当然,数据的多样性仍然是十分重要的,正如我们将在第三点中讨论的。因此,人们应当非常小心地处理在数据多样性和质量之间的权衡。 32 | 33 | \2. 第二点是**预训练数据集的去重**。去重有助于避免预训练模型多次面对相同的数据后记住它们或者在其上过拟合,因此有助于提高模型的泛化能力。GPT-3 和 PaLM 采用了文档级别的去重,这同样被 OPT 所采用。但 OPT 预训练的去重 Pile 语料库中仍有许多重复存在,这也可能导致它较差的性能(注:在一些最近的文献中显示去重对于预训练语言模型的重要性可能没有想象中大)。 34 | 35 | \3. 第三点是**预训练数据集的多样性**,包括领域多样性、格式多样性(例如:文本、代码和表格)和语言多样性。OPT-175B 所使用的 Pile 语料库声称有着更好的多样性,但 BLOOM 采用的 ROOTS 语料库则有太多的已经存在的学术数据集,缺乏 Common Crawl 数据所包含的多样性。这可能导致 BLOOM 性能更差。作为对比,GPT3 来自 Common Crawl 语料的占比则要高得多,而它们来自广泛领域,是多样的,这也可能是 GPT-3 能够作为首个通用聊天机器人 ChatGPT 的基础模型的原因之一。 36 | 37 | 请注意:虽然一般来说,多样性的数据对于训练一个通用的 LLM(Large Language Model,大规模语言模型)是重要的,但特定的预训练数据分布,则会对 LLM 在特定的下游任务上的性能产生巨大的影响。例如,BLOOM 和 PaLM 在多语言数据上有更高的占比,这导致它们在一些多语言任务和机器翻译任务上的性能更高。 38 | 39 | OPT 使用了很多对话数据(例如 reddit),这可能是它在对话中表现好的原因之一。PaLM 有很大的占比在社交媒体对话中,这可能是它在多种问答任务和数据集上有着卓越表现的原因。同样的,PaLM 和更新版本的 GPT-3 有很大比例的代码数据集,这增强了它们在代码任务上的能力,以及可能增强了它们 CoT (Chain-of-Thought,思维链) 的能力。 40 | 41 | 一个有趣的现象是,BLOOM 在代码和 CoT 上的表现仍然是较差的,尽管它在预训练过程中使用了代码数据。这可能暗示着单独代码数据本身并不能保证模型的代码和 CoT 能力。 42 | 43 | 总之,一些文章表明了上面三点的重要性,即:**通过数据去重避免记忆和过拟合,通过数据筛选以得到高质量数据,保证数据多样性以确保 LLM 的泛化性。**但不幸的是,对于 PaLM 和 GPT-3 预处理这些数据的细节,或者这些预训练数据本身,仍然没有公布,这使得公共社区很难去复现它们。 44 | 45 | **训练策略** 46 | 47 | 此处训练策略包括训练框架、训练持续时间、模型架构/训练设置、训练过程中的修改。在训练非常大的模型时,它们被用于获得更好的稳定性和收敛性。 48 | 49 | 一般来说,由于未知的原因,预训练过程中广泛观察到损失尖峰(loss spike)和无法收敛的情况。因此,众多的对训练设置和模型架构的修改被提出,用以避免这些问题。但是其中一些修改在 OPT 和 BLOOM 之中还不是最优解,这可能导致它们的性能较差。GPT-3 并没有明确提到他们是如何解决这个问题的。 50 | 51 | 1. **训练框架。**一个参数量大于 175B 的模型往往需要 ZeRO 式的数据并行(分布式的优化器)和模型并行(包括张量并行(tensor parallel)、流水线并行(pipeline parallel),有时还包括序列并行(sequence parallel))。OPT 采用了 ZeRO 的 FSDP 实现,以及模型并行的 Megatron-LM 实现。BLOOM 采用了 ZeRO 的 Deepspeed 实现和模型并行的 Megatron-LM 实现。 52 | 53 | PaLM 采用了 Pathways,这是一个基于 TPU 的模型并行和数据并行系统。GPT-3 的训练系统的细节仍然未知,但它们至少在一定程度上使用了模型并行(一些人称它使用了 Ray)。不同的训练系统和硬件可能导致不同的训练时的现象。显然,一些在 PaLM 的文章中呈现的、用于 TPU 训练的设置,可能并不适用于其它所有模型使用的 GPU 训练。 54 | 55 | 硬件和训练框架的一个重要的影响是,人们是否可以使用 bfloat16 去存储模型权重和中间层激活值等。这已经被证明是稳定训练的一个重要因素,因为 bfloat16 可以表示更大范围的浮点数,能够处理在损失尖峰时出现的大数值。在 TPU 上 bfloat16 是默认设置,这可能是 PaLM 能够成功的一个秘密。但是在 GPU 上,以前人们主要使用 float16,这是 V100 中混合精度训练的唯一选择。 56 | 57 | OPT 使用了 float16,这可能是其不稳定的因素之一。BLOOM 发现了这样的问题并最终在 A100 GPU 上使用了 bfloat16,但它没有意识到这种设置的重要性,因此在第一个词向量层后引入额外的层归一化(layer normalization),用于解决他们使用 float16 的初步实验中的不稳定性。然而,这种层归一化已被证明会导致更糟糕的零样本泛化(zero-shot generalization),这可能是 BLOOM 失败的一个因素。 58 | 59 | 2. **训练过程中的修改。**OPT 做了很多中途调整并从最近的 checkpoint 重启训练,包括改变截断梯度范数 (clip gradient norm) 和学习率,切换到简单的 SGD 优化器然后回到 Adam,重置动态损失标量 (dynamic loss scalar),切换到更新版本的 Megatron 等等。 60 | 61 | 这种中途调整可能是 OPT 失败的原因之一。相比之下,PaLM 几乎没有做任何中途调整。它只是当损失尖峰出现时,从尖峰开始前大约 100 步的 checkpoint 重新开始训练,并跳过了大约 200-500 个 batch 的数据。仅仅依靠这种简单的重启,PaLM 就取得神奇的成功。这是由于它在预训练数据构建期间就已经完成采样,因此模型具有在 Bit 意义上的确定性,以及它对模型架构和训练设置进行了许多修改以获得更好的稳定性。PaLM 中的此类修改在下一点中展示。 62 | 63 | **3. 模型架构/训练设置**:为了使训练更稳定,PaLM 对模型架构和训练设置进行了多项调整,包括使用 Adafactor 的修改版本作为优化器,缩放在 softmax 之前的输出 logit,使用辅助损失来鼓励 softmax 归一化器接近 0,对词向量和其他层权重使用不同的初始化,在前馈层和层归一化中不使用偏差项,并且在预训练期间不使用 dropout。 64 | 65 | 请注意,GLM-130B 中还有更多有价值的内容关于如何稳定地训练非常大的模型,例如:使用基于 DeepNorm 的后置层归一化而不是前置层归一化,以及词向量层梯度收缩。以上大多数模型修改没有被 OPT 和 BLOOM 采用,这可能会导致它们的不稳定和失败。 66 | 67 | **4. 训练过程**:如下表所示,原始的 GPT-3 预训练过程见过的 token 数与 OPT 和 BLOOM 接近,而 PaLM 则远远超过了它们。同样,PaLM 和 GPT-3 预训练语料库都大于 BLOOM 和 OPT。因此,在更多的 token 上、用更大规模的高质量语料库进行预训练可能是 GPT-3 和 PaLM 成功的一个重要因素。 68 | 69 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWr7mNicwWOWJIIktk3QMXW6DmhPZbaTvr8hSs8yyDsUFFuRHn9LvDTibmqzSUiaGXWvsFOib5gA2pOung/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 70 | 71 | 除了上面列出的四点,还有一些其它因素,它们可能对于更稳定的训练并不重要,但仍然可能影响最终的性能。 72 | 73 | 第一点,**PaLM 和 GPT-3 都使用了在训练过程中从小到大逐渐增加的 batch size**,这已经被证明对于训练一个更好的 LLM 是有效的,然而 OPT 和 BLOOM 都使用了恒定的 batch size。 74 | 75 | 第二点,OPT 使用了 ReLU 激活函数,而 PaLM 使用 SwiGLU 激活函数,**GPT-3 和 BLOOM 使用 GeLU,它通常使得训练的 LLM 的性能更好。** 76 | 77 | 第三点,为了更好的建模更长的序列,PaLM 使用 RoPE 词向量,BLOOM 使用 ALiBi 词向量,**而原始的 GPT-3 和 OPT 使用学习得到的词向量,这可能影响在长序列上的性能。** 78 | 79 | **2** 80 | 81 | **我们应该在哪些任务上使用GPT-3.5或ChatGPT?** 82 | 83 | 我尝试解释我们应该在哪些任务和应用上使用 GPT-3,而哪些则不该使用。为了展示 GPT-3 是否适合某个特定任务,我主要比较了带有提示(prompting)的 GPT-3 和经过微调的更小的模型,这些小模型有时还加入了其他特殊的设计。鉴于最近出现的更小的而且可以微调的 FLAN-T5 模型的良好性能,这一问题更加重要。 84 | 85 | 在理想情形下,如果微调 GPT-3 的负担是能够承担的,它可能带来更进一步的提升。然而,在一些任务上通过微调 PaLM-540B 带来的提升是如此有限,让人们怀疑在一些任务中微调 GPT-3 是否是值得的。从科学的角度来看,更公平的比较应在微调 GPT-3 和提示 GPT-3 之间进行。然而,要使用 GPT-3,人们可能更关心将提示 GPT-3 和微调一个更小的模型去进行对比。 86 | 87 | 注意到,我主要关心的是将完成任务的精确度作为度量,但仍然存在很多其它重要的维度,例如:有害性(toxicity)、公平性等,它们也应该在决定是否使用 GPT-3 时被纳入考虑,正如 HELM 的文章中所呈现的。下图展示了一个粗略的决策流程,希望它能够作为一个有用的实践指南,无论对于已有任务还是一个全新的任务。 88 | 89 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWr7mNicwWOWJIIktk3QMXW6DsZHKa3Y4GPhuXC25VhcaRia49t6GMqnL7PegBZoxdCfZvTKXWbLts5w/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 90 | 91 | 注 1:由于在对话场景下的良好对齐,ChatGPT 作为一个聊天机器人表现优异。但我们通常使用 GPT-3、InstructGPT (GPT-3.5)、以及 Codex 这些 ChatGPT 背后的模型作为在更多任务和使用场景下的通用模型。 92 | 93 | 注 2:这一节中的结论是基于一些对模型当前版本的发现得到的,这可能不适用于未来的更强的模型。因为,使用更多与目标数据集接近的预训练数据、学术数据集指令调整(例如提示一个 FLAN-PaLM 可能会带来更强的性能,它仍未公开)或者通过 RLHF 以使得模型对目标任务的更好对齐,这些都可能使得模型在目标任务中表现更好,即使有时这会牺牲在其他场景下的能力(例如,InstructGPT的“对齐税/Alignment tax”)。 94 | 95 | 在这种情况下,很难判断 GPT 是进行泛化和跨任务泛化,还是仅仅在预训练时就已经记住了一些测试样例,或者说见过那些在预训练时所谓“没有见过”的任务。然而,记忆在实践中是否真的是一个严重的问题,这仍然值得怀疑。因为用户与研究人员不同,如果他们发现 GPT 已经可以在他们的测试数据上表现良好,他们可能不会关心 GPT 在预训练期间是否看到了相同或相似的数据。 96 | 97 | 不论如何,为了最大化这一节在当前的实用价值,我尽最大努力,试图比较微调公共的更小型的模型(T5、FALN-T5、一些特殊设计的微调 SOTA 模型等)和最近的 GPT-3 (GPT-3.5、InstructGPT)、PaLM(或 FLAN-PaLM)的最佳性能,如果这些模型的测评数据够获得的话。 98 | 99 | 一般来说,有以下这些情况更适合使用提示 GPT-3。令人惊讶的是,如果我们回看 GPT-3 论文的介绍部分,在那里很多初始设计时的目标涵盖了这些任务。这意味着那些当初宏伟的目标已经被部分实现了。 100 | 101 | **1. 创造性和复杂的任务**:包括代码(代码补全、自然语言指令生成代码、代码翻译、bug 修复)、文本摘要、翻译、创造性写作(例如写故事、文章、邮件、报告,以及写作的改进等)。正如原始的 GPT-3 文献中所示,GPT-3 被设计用于那些困难和“不可能标注”的任务。在一定程度上,对于这些任务,先前那种经过微调的模型不可能应用于真实世界的应用;而 GPT-3 使它们成为可能。举个例子,最近的文章显示,过去的人类标注的文本摘要已经被 LLM 生成的摘要所超越。 102 | 103 | 在某些需要从低、中资源语言翻译到英语的机器翻译任务中,通过提示 PaLM-540B,它甚至能够超越微调模型。 104 | 105 | 在 BLOOM-176B 中也观察到了类似的趋势。这是因为英语数据通常在预训练语料库中占了很大比例,因此 LLM 擅长生成英语语句。注意到,为了在代码任务中获得良好性能,尽管 Codex 和 PaLM 已经在整体上具有比之前模型更好的性能,我们仍需允许 LLM 多次(k 次)采样,以通过测试样例(使用 pass@k 作为度量)。 106 | 107 | **2. 只有少数标注或者没有标注数据的任务**。正如原始的 GPT-3 文献所说,GPT-3 是为了那些“昂贵标注”的任务设计的。在这种情况下,用极少量标注数据微调一个更小的模型通常不可能达到 GPT-3 在零样本(zero-shot)、单样本(one-shot)或少样本(few-shot)的情况下的表现。 108 | 109 | **3. 分布外(Out-of-distribution, OOD)泛化**。给定一些训练数据,传统的微调可能会过拟合训练集并且有较差的分布外泛化能力;而少样本的上下文学习(in-context learning)能够有更好的分布外泛化性。例如,带有提示的 PaLM 能够在对抗自然语言推断任务(Adversarial Natural Language Inference,ANLI)上超越经过微调的 SOTA 模型,而它在正常的语言推断任务上可能仍然劣于微调的 SOTA。 110 | 111 | 另一个例子是提示 LLM 比微调模型显示出更好的组合泛化能力。更好的分布外泛化性可能是因为在上下文学习期间不需要更新参数,避免了过拟合;或者因为那些过去的分布外样例对于 LLM 而言是分布内的。这种使用场景被阐释为 GPT-3 的初始设计目标之一:“微调模型在特定任务的数据集上的性能可以达到所谓的人类水平,实际上可能夸大了在真实世界中该任务上的性能,这是因为模型只是学到了训练集中存在的虚假的相关性,以及模型过度拟合了这个训练集狭窄的分布。” 112 | 113 | \4. 需要**处理多种任务的能力**,而非关注特定任务上的卓越表现。聊天机器人就是这样一种场景,其中,用户期待它能够正确地响应各种各样的任务。这可能就是为什么 ChatGPT 是 GPT-3 最成功的使用场景之一。 114 | 115 | \5. 那些检索不可行的**知识密集型任务**。存储在 LLM 中的知识可以显著地提高在知识密集型任务的性能,例如闭卷问答和 MMLU(一个基准数据集,包括来自于 STEM、人文、社科等 57 个学科的选择题,它用于测试 LLM 的世界知识和问题解答的能力)。然而,如果预先检索的步骤可以被加入来做检索增强的生成,一个微调的更小的模型(例如 Atlas 模型)甚至可以有更好的性能(在闭卷的 NaturalQuestions 和 TrivialQA 数据集上,Atlas 比 PaLM 和最新的 InstructGPT 都要更好)。 116 | 117 | 检索或者传统的搜索同样是将 GPT-3 或 ChatGPT 整合到搜索引擎中的一个必要的步骤,这可以提升生成的准确性,并且提供更多的参考链接以增强说服力。但我们应该承认,在某些情况下,检索是不允许或者不容易的,比如参加 USMLE (美国医学执照考试),谷歌已经证明基于 FLAN-PaLM 的模型可以在其中做得很好。 118 | 119 | 同样的,在 MMLU 基准集中,PaLM-540B 有着比其他微调模型更好的性能,甚至后者结合了检索,尽管最新版本的 InstructGPT 还差于这些带有检索的微调 SOTA。也请注意,指令调整一个较小的模型也可以实现与更大规模的 LLM 模型接近的效果,这已经在 FLAN-T5 中展现。 120 | 121 | \6. 一些**困难的任务**,其中需要**LLM 的涌现能力**,比如带有 CoT 的推理和 BIG-Bench 中的复杂任务(包括逻辑推理、翻译、问答、数学任务等)。举个例子,PaLM 已经展示,在 7 个包括数学和常识推理的多步推理任务上,8-样例的 CoT 比微调 SOTA 在其中 4 个任务上更好,在其它 3 个任务上则基本持平。 122 | 123 | 这样的成功表现要同时归因于更大规模的模型和 CoT。PaLM 还显示了在 BIG-Bench 任务上从 8B 到 62B 再到 540B 模型的不连续的表现提升,这超出了规模定律(scaling law),被称为 LLMs 的涌现能力。另外,带有 5 个 Prompt 的 PaLM-540B 在 Big-Bench 的 58 项常见任务中的 44 项上优于之前的(少样本)SOTA。PaLM-540B 在 Big-Bench 的总体表现也优于人类的平均表现。 124 | 125 | \7. 一些需要**模仿人类**的场景,或者是其目标是**制作性能达到人类水平的通用人工智能**。同样的,ChatGPT 是其中的一个案例,ChatGPT 使自己更像是一个人,从而取得了现象级的成功。这也被阐释为 GPT-3 的初始设计目标之一:“人类不需要大规模监督数据集来学习大多数语言任务。最多只需要几个例子,人类就可以将各种任务和技巧无缝地混合在一起或者在它们之间切换。因此传统的微调模型导致了与人类的不公平比较,尽管他们声称在许多基准数据集中有着人类水平的性能。” 126 | 127 | \8. 在**一些传统的接近于语言建模的 NLP 任务上**,少样本 PaLM-540B 能够大致匹配或者甚至超过微调的 SOTA,例如:一段话最后一句和最后一个单词的完型填空,以及回指(anaphora)解析。需要指出,在这种情况下,零样本的 LLM 已经足够了,单样本或少样本的示例则通常帮助不大。 128 | 129 | 另一些任务则并不需要提示(prompt)一个 GPT-3 这样规模的模型: 130 | 131 | \1. 调用 OpenAI GPT-3 的 API 超出了预算(例如对于没有太多钱的创业公司)。 132 | 133 | \2. 调用 OpenAI GPT-3 的 API 存在安全问题(例如数据泄露给 OpenAI,或者可能生成的有害内容)。 134 | 135 | \3. 没有足够的工程或者硬件资源去部署一个相似大小的模型及消除推断的延迟问题。例如,在没有最先进的 80G 的 A100 或者工程资源来优化推断速度的情况下,简单地使用 Alpa 在 16 个 40G 的 A100 上部署 OPT-175B 需要 10 秒才能完成单个样例的推断,这对于大多数现实世界的在线应用程序来说是无法接受的延迟。 136 | 137 | \4. 如果想用 GPT-3 替代一个性能良好的、高准确度的微调模型,或者想要在一些特定的单一任务和使用场景下去部署一个 NLU(Natural Language Understanding,自然语言理解)或 NLG(Natural Language Generating,自然语言生成)模型,请三思这是否值得。 138 | 139 | - 对于一些传统的 NLU 任务,比如分类任务,我建议首先尝试微调 FLAN-T5-11B 模型,而不是提示 GPT-3。例如,在 SuperGLUE,一个困难的 NLU 基准数据集(包括阅读理解、文本蕴含、词义消歧、共指消解和因果推理等任务)上,所有的 PaLM-540B 的少样本提示性能都劣于微调的 T5-11B,并在其中大多数任务上有着显著的差距。如果使用原始 GPT3,其提示结果与微调 SOTA 的结果之间的差距更大。有趣的是,即使是经过微调的 PaLM 也仅比经过微调的 T5-11B 有着有限的改进,而经过微调的 PaLM 甚至比经过微调的编-解码器模型 32B MoE 模型还要差。这表明使用更合适的架构(例如编-解码器模型)微调较小的模型仍然是比使用非常大的仅解码器模型更好的解决方案,无论是微调还是提示来使用这些大模型。根据最近的一篇论文,即使对于最传统的 NLU 分类任务——情感分析,ChatGPT 仍然比经过微调的较小模型差。 140 | 141 | - 一些不以现实世界数据为基础的困难任务。例如,BigBench 中仍然有许多对 LLM 来说困难的任务。具体地说,在 35% 的 BigBench 任务上,人类的平均表现仍然高于 PaLM-540B,并且在某些任务中,扩大模型规模甚至无济于事,例如导航和数学归纳。在数学归纳中,当提示中的假设不正确时(例如“2 是奇数”),PaLM 会犯很多错误。在逆规模定律竞赛 (Inverse Scaling Law Challenge) 中,也观察到了类似的趋势,例如重新定义数学符号(例如提示可能“将 π 重新定义为 462”)后再使用这个符号。在这种情况下,LLM 中的现实世界先验知识太强而无法被提示覆盖,而微调较小的模型可能可以更好地学习这些反事实知识。 142 | 143 | - 在很多多语言任务和机器翻译任务中,使用少样本的提示 GPT 仍然要比微调的更小的模型更差。这很可能是由于除英语之外的其它语言在预训练语料库中占比很少。 144 | 145 | - 当从英语翻译为其他语言,以及翻译高资源语言到英语时,PaLM 和 ChatGPT 仍然比在机器翻译任务上微调的更小的模型要差。 146 | - 对于多语言问答任务来说,在少样本的 PaLM-540B 和微调的更小模型之间还存在较大差距。 147 | - 对于多语言文本生成(包括文本摘要和数据到文本生成),在少样本的 PaLM-540B 和微调的更小模型之间还存在较大差距。在大部分任务上即使微调的 PaLM-540B 也仅仅比微调的 T5-11B 有有限的提升,并仍然劣于微调的 SOTA。 148 | 149 | - 对于常识推理任务,在最好的少样本提示 LLM 和微调的 SOTA 之间仍然存在着较大的差距,例如:OpenbookQA,ARC(包括 Easy 和 Challenge 版本)以及 CommonsenseQA(甚至使用了 CoT 提示)。 150 | 151 | - 对于机器阅读理解任务,在最好的少样本提示 LLM 和微调的 SOTA 之间仍然存在着较大的差距。在大多数数据集上,这个差距可能非常巨大。这可能是因为所有回答问题所需的知识都已经包含在给出的文本中,并不需要 LLM 中的额外知识。 152 | 153 | 总结一下,上面的这些任务可以被归为以下类别之一: 154 | 155 | 1. **一些 NLU 任务,既不需要额外的知识也不需要 LLM 的生成能力**。这意味着测试数据大多数都和手头的训练数据在同一个分布之中。在这些任务上,过去微调的较小模型已经表现很好了。 156 | 157 | 2. **一些不需要额外的来自 LLM 中知识的任务**,因为每一个例子已经在上下文或者提示中包含了足够的知识,例如机器阅读理解。 158 | 159 | 160 | 161 | 3. **一些需要额外知识,但不太可能从 LLM 中获得这样的知识,或者 LLM 不太可能见过类似分布的任务**,例如一些低资源语言中的任务,LLM 在这些语言中只有有限的预训练样本。 162 | 163 | 4. **一些任务,需要与 LLM 中包含的知识所不一致的知识****,或者并非基于现实世界的语言数据的知识**。因为 LLM 是在现实世界的语言数据上训练的,它难以在新的任务中利用反事实知识覆盖原有知识。除了在逆规模定律挑战中的“重新定义数学符号”问题之外,还有另一个任务,即复述有细微改动的名言,其中 LLM 被要求复述一个在 prompt 中出现的被修改的名言。在这种情况下,LLM 倾向于重复出名言的原始版本,而非修改过后的版本。 164 | 165 | 5. **一些任务需要来自 LM 的知识,但也严重依赖于操纵这些知识**,而 LLM 的“预测下一个 token”的目标无法轻易实现这种操纵。一个例子是一些常识推理任务。CoT 和 least-to-most 提示可以帮助 LLM 推理的原因可能是他们可以更好地调出那些连续的预训练文本,这些连续文本恰好模仿了规划和分解/组合知识的过程。 166 | 167 | 因此,CoT 和 least-to-most 提示在一些数学推理、代码和其他简单的自然语言推理任务中表现良好,但在许多常识推理(例如在逆规模定律竞赛中展示的演绎推理任务)和自定义符号推理任务中仍然表现不佳。这些任务通常不被自然语言数据中的大多数真实世界的连续序列所包含,而需要操纵分散在各处的知识来完成。 168 | 169 | 6. **一些容易受到上下文学习样例或者真实世界数据中存在的虚假相关性影响的任务**。一个例子是来自于逆规模定律竞赛中的涉及否定词的问答。如果一个 LLM 被提问:“如果一只猫的体温低于平均水平,它就不在……”,它倾向于回答“危险之中”而非“安全范围“。这是因为 LLM 受到常见的“低于平均体温”和“危险”之间的关系所支配,而在否定的情况下,这是一种虚假的相关性。 170 | 171 | 7. **一些目标与处理语言数据显著不同的任务**,例如:回归问题,其中微调模型很难被 LLM 取代。至于多模态任务,它们不能被 LLM 解决,但是可能能从大规模的预训练多模态模型中受益。 172 | 173 | 174 | 175 | 8. **一些任务不需要LLM的涌现能力**。为了准确地对更多此类任务进行鉴别,我们需要更好地了解 LLM 训练期间,涌现能力是从何产生的。 176 | 177 | 注意到,在现实世界的使用场景中,即使由于无法满足延迟要求因而无法在线地使用 LLM,仍然可以使用 LLM 离线生成或标注数据。此类自动标注的标签可以在线查找并提供给用户,或用于微调较小的模型。使用此类数据微调较小的模型可以减少训练模型所需的人工注释数据,并将 LLM 的一些新兴能力(例如 CoT)注入较小的模型。 178 | 179 | 总之**,当有足够的标记数据时,考虑到开源 FLAN-T5 在许多任务中的惊人性能,我推荐那些调用 OpenAI API 的资源有限的个体,应该首先尝试在目标任务上微调 FLAN-T5-11B。**此外,根据最近在 MMLU 数据集上,FLAN-PaLM-540B 与最新版本的 InstructGPT 的性能(根据 HELM)相比好得惊人的性能,谷歌可能拥有比 OpenAI 更强大的基础模型,如果 OpenAI 已经通过 API 发布了他们获得的最强的 LLM。 180 | 181 | 谷歌唯一剩下的步骤是通过人类反馈使这个 LLM与对话场景对齐(alignment)。如果他们很快发布类似 ChatGPT 的或者更好的聊天机器人,我不会感到惊讶——尽管他们最近“失败”地展示了一版可能基于 LaMDA 的 Bard。 182 | 183 | **参考文献:** 184 | 185 | [1] HELM: Holistic Evaluation of Language Models and its board: https://crfm.stanford.edu/helm/v0.2.0/?group=core_scenarios 186 | 187 | [2] GPT3: Language Models are Few-Shot Learners 188 | 189 | [3] PaLM: Scaling Language Modeling with Pathways 190 | 191 | [4] OPT: Open Pre-trained Transformer Language Models 192 | 193 | [5] BLOOM: A 176B-Parameter Open-Access Multilingual Language Model 194 | 195 | [6] FLAN-T5/PaLM: Scaling Instruction-Finetuned Language Models 196 | 197 | [7] The Flan Collection: Designing Data and Methods for Effective Instruction Tuning 198 | 199 | [8] InstructGPT: Training language models to follow instructions with human feedback 200 | 201 | [9] Yao Fu’s blog on “Tracing Emergent Abilities of Language Models to their Sources” 202 | 203 | [10] Inverse Scaling Prize: https://github.com/inverse-scaling/prize 204 | 205 | [11] Is ChatGPT a General-Purpose Natural Language Processing Task Solver? 206 | 207 | 208 | 209 | -------------------------------------------------------------------------------- /ChatGPT/Blog/ChatGPT_Technology/LLM_Emergent_Ability.md: -------------------------------------------------------------------------------- 1 | # LLM Emergent Ability 2 | 3 | 英文版原文:https://franxyao.github.io/blog.html 4 | 5 | 最近,人们对大型语言模型所展示的强大能力(例如思维链[2]、便签本[3])产生了极大的兴趣,并开展了许多工作。我们将之统称为**大模型的突现能力**[4],这些能力可能只存在于大型模型中,而不存在于较小的模型中,因此称为“突现”。其中许多能力都非常令人印象深刻,比如复杂推理、知识推理和分布外鲁棒性。 6 | 值得注意的是,这些能力很接近 NLP 社区几十年来一直寻求的能力,因此代表了一种潜在的研究范式转变,即从微调小模型到使用大模型进行上下文学习。对于先行者来说,范式转变可能是很显然的。然而,出于科学的严谨性,**我们确实需要非常明确的理由来说明为什么人们应该转向大型语言模型,即使这些模型昂贵、难以使用,并且效果可能一般。** 7 | 在本文中,我们将仔细研究这些能力是什么,大型语言模型可以提供什么,以及它们在更广泛的 NLP/ML 任务中的潜在优势是什么。 8 | 9 | **前提:**我们假设读者具备以下知识: 10 | 11 | - 预训练、精调、提示(普通从业者应具备的自然语言处理/深度学习能力) 12 | - 思维链提示、便签本(普通从业者可能不太了解,但不影响阅读) 13 | 14 | ## 1、存在于大模型而非小模型的突现能力 15 | 16 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWpoBBichayYMMq2ia3zNActhCEicGicEbZYVhkPWEYUiaJsXh9y7x64ib87I2IRqj1joicx50sNDMlPiclDibw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 17 | 18 | *图片来自于 Wei. et. al. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models。X轴为模型尺寸。GSM8K是一个小学水平的数学问题集。* 19 | 20 | 在以上的效果图中,我们可以观察到模型的表现: 21 | 22 | - 当尺寸相对小的时候提升并不大 23 | - 当模型变大时有很明显的提升 24 | 25 | 这从根本上说明,某些能力可能不存在于小模型中,而是在大模型中获得的。 26 | 27 | 有很多种突现能力,比如 Wei 等人在 2022年[5]所梳理的。有些能力很有意思,但我们在本文不会讨论,比如last latter concatenation,我们认为这是Python而不是语言模型要做的任务;或者3位数加法,我们认为这是计算器而不是语言模型要做的事。 28 | 29 | 在本文中,我们主要对以下能力感兴趣: 30 | 31 | \1. NLP 社区近几年都关注但还没实现的能力 32 | 33 | \2. 之前的 NLP 模型很难达到的能力 34 | 35 | \3. 源自于人类语言最深层的本质的能力 36 | 37 | \4. 可能达到人类智力的最高水平的能力 38 | 39 | ## 2、突现能力的三个典型例子 40 | 41 | 很多有意思的能力都可以归到上文提到的类别里,在它们之中,我们主要讨论以下三种典型能力: 42 | 43 | 1. 复杂推理 44 | 2. 知识推理 45 | 3. 分布外鲁棒性 46 | 47 | 接下来让我们一个个详细讨论。 48 | 49 | ### 2.1、复杂推理 50 | 51 | 下面是一个GSM8K数据集中,用提示词显著超过精调的例子: 52 | 53 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWpoBBichayYMMq2ia3zNActhCLhJZQhHjpibEJreeUqVsp1F6rrTLJI2WMCUZZZaPoRMLaMoGaxS4Qmw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 54 | 55 | 虽然这道题对于10岁的孩子来说很容易,但对语言模型来说却很难,主要是由于数学和语言混合在一起。 56 | 57 | GSM8K 最初由 OpenAI 于 **2021 年 10 月**[6]提出。当时他们用第一版GPT3在全部训练集上进行了精调,准确率约为 **35%**。**这个结果让作者相当悲观,因为他们的结果显示了语言模型的缩放规律:****随着模型大小呈指数**增长,性能呈**线性**增长(我之后会讨论)。因此,他们在第 4.1 节中思考: 58 | 59 | ”**175B** 模型似乎需要至少**额外两个数量级**的训练数据才能达到 **80% 的求解率**。“ 60 | 61 | 三个月后,即 2022 年 1 月,Wei 等人[7]基于 540B PaLM 模型,**仅使用了8个思维链提示示例便将准确率提高到56.6%**(无需将训练集增加两个数量级)。之后在 **2022 年 3 月**,Wang 等人[8]基于相同的 540B PaLM 模型,通过多数投票的方法将准确率提高到 **74.4%** 。当前的 SOTA 来自我自己在 AI2 的工作(Fu et. al. **Nov 2022**[9]),我们通过使用复杂的思维链在 175B Codex 上实现了 **82.9%** 的准确率。从以上进展可以看到,技术进步确实呈指数级增长。 62 | 63 | 思维链提示是一个展示模型随着规模突现出能力的典型例子: 64 | 65 | - **从突现能力来看:**尽管不需要 17500B,但模型大小确实要大于 100B ,才能使思维链的效果大于的仅有回答提示。所以这种能力只存在于大型模型中。 66 | - **从效果来看:**思想链提示的性能明显优于其之前的精调方法(目前还没有能公平对比提示词和微调的工作。但当思维链被提出的时候,尽管他们对于提示和精调的比较可能是不公平的,但确实比精调效果要好)。 67 | - **从标注效率上来看:**思维链提示只需要 8 个示例的注释,而微调需要完整的训练集。 68 | 69 | 有些同学可能会认为模型能做小学数学代表不了什么(从某种意义上说,他们确实没有那么酷)。但 GSM8K 只是一个开始,最近的工作已经把前沿问题推向了高中[10]、大学[11],甚至是国际数学奥林匹克问题[12]。现在更酷了吗? 70 | 71 | ### 2.2、知识推理 72 | 73 | 下一个例子是需要知识的推理能力(例如问答和常识推理)。在这种情况下,**对大型模型进行提示不一定优于精调小型模型**(哪个模型更好还有待观察)。但是**这个情况下的注释效率被放大了**,因为: 74 | 75 | - 在许多数据集中,为了获得所需的背景/常识知识,(以前很小的)模型需要一个外部语料库/知识图谱来检索[13],或者需要通过多任务学习在增强[14]的数据上进行训练 76 | - 对于大型语言模型,可以直接去掉检索器[15],仅依赖模型的内部知识[16],且无需精调 77 | 78 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWpoBBichayYMMq2ia3zNActhCC3RIPTN9d0trpicpoffuwFpZ67k51AtJUHafSLPDtIn7AWHfSQlpnQg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 79 | 80 | *图片来自于 Yu et. al. 2022. 以前的 SOTA 模型需要从外部知识源中检索。GPT-3 的性能与以前的模型相当/优于以前的模型,且无需检索。* 81 | 82 | 如表中所示,与数学题的例子不同,GPT-3 并没有明显优于之前的精调模型。但它不需要从外部文档中检索,本身就包含了知识(虽然这些知识可能过时或者不可信,但选择哪种可信知识源超出了本文的讨论范围)。 83 | 84 | 为了理解这些结果的重要性,我们可以回顾一下历史:NLP 社区从一开始就面临着**如何有效编码知识**的挑战。人们一直在不断探究把知识保存在模型外部或者内部的方法。 85 | 上世纪九十年代以来,人们一直试图将语言和世界的规则记录到一个巨大的图书馆中,将知识存储在模型之外。但这是十分困难的,毕竟我们无法穷举所有规则。 86 | 因此,研究人员开始构建特定领域的知识库,来存储非结构化文本、半结构化(如维基百科)或完全结构化(如知识图谱)等形式的知识。通常,**结构化知识很难构建**(因为要设计知识的结构体系),**但易于推理**(因为有体系结构),**非结构化知识易于构建**(直接存起来就行),**但很难用于****推理**(没有体系结构)。然而,语言模型提供了一种新的方法,可以轻松地从非结构化文本中提取知识,并在不需要预定义模式的情况下有效地根据知识进行推理。下表为优缺点对比: 87 | 88 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWpoBBichayYMMq2ia3zNActhClJWFGrib12FZ08qeUMy2TdJlibcz1ibRcYnHDdhjMZefKZPFKnBYVdibCg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 89 | 90 | ### 2.3、分布外鲁棒性 91 | 92 | 我们讨论的第三种能力是分布外的鲁棒性。在 2018 年至 2022 年期间,NLP、CV 和通用机器学习领域有大量关于分布偏移/对抗鲁棒性/组合生成的研究,人们发现当测试集分布与训练分布不同时,模型的行为性能可能会显著下降。然而,在大型语言模型的上下文学习中似乎并非如此。Si 等人在2022年的研究显示[17]: 93 | 94 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWpoBBichayYMMq2ia3zNActhCu77SCUibvuicZBibiaE8ntBPekUfFyn9znEgarSRl0X6kaLusdAc0c9ibug/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 95 | 96 | *数据来自于 Si et. al. 2022. 虽然 GPT-3 在同分布设置下比 RoBERTa 要差,但在非同分布设置下优于 RoBERTa,性能下降明显更小。* 97 | 98 | 同样,在此实验中,同分布情况下基于提示词的 GPT-3 的效果并没有精调后的 RoBERTa要好。但它在三个其他分布(领域切换、噪声和对抗性扰动)中优于 RoBERTa,这意味着 GPT3 更加鲁棒。 99 | 100 | 此外,即使存在分布偏移,好的提示词所带来的泛化性能依旧会继续保持。比如: 101 | 102 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWpoBBichayYMMq2ia3zNActhC7GUBXZCPjAia4f8HW8vAia77xWf2vibXLBX4NuBFaqln9jQgSkQfcYAfQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 103 | 104 | *图片来自于 Fu et. al. 2022. 即使测试分布与训练分布不同,复杂提示也始终比简单提示的表现更好。* 105 | 106 | Fu 等人2022年[18]的研究显示,输入提示越复杂,模型的性能就越好。这种趋势在分布转移的情况下也会继续保持:无论测试分布与原分布不同、来自于噪声分布,或者是从另一个分布转移而来的,复杂提示始终优于简单提示。 107 | 108 | ### 2.4、到目前为止的总结 109 | 110 | 在上文中,我讨论了只有大型模型才有的三种突现能力。它们是: 111 | 112 | - **复杂推理**,大型模型在没有使用全部训练数据的情况下便显著优于以前的小型模型。 113 | - **知识推理**,大型模型可能没有小模型效果好,但大模型不需要额外的知识来源(知识可能很昂贵,或者很难从非结构化数据中抽取)。 114 | - **分布外鲁棒性**,这是之前进行模型精调时需要努力解决的问题。大型模型虽然在同分布情况下的效果不如以前的方法,但非同分布情况下的泛化性能却好得多。 115 | 116 | ## 3、突现能力推翻比例定律 117 | 118 | 鉴于上文列出的优点,大家可能会开始觉得大型语言模型确实很好了。在进一步讨论之前,让我们再回顾一下之前的工作,就会发现一个很奇怪的问题:**GPT-3 在 2020 年就发布了,但为什么直到现在我们才发现并开始思考范式的转变**? 119 | 120 | 这个问题的答案就藏在两种曲线中:对数线性曲线和相变曲线。如下图: 121 | 122 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/AzuXfeINxjXCU7x20XJTO3JiapKu4TVkicpowruy6sn7FcfJyU2AdzEvjcRy0F2Kedsz8iaqb5x2n8qsVyw9caK3Q/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 123 | 124 | *左图: 比例定律. 当模型大小呈指数增长时,相应的模型性能呈线性增长。右图: 当模型尺寸达到一定规模时,会出现突现能力,让性能急剧增加。* 125 | 126 | 最初,(OpenAI)的研究者认为语言模型的性能与模型尺寸的关系可以通过对数线性曲线预测,即模型尺寸呈指数增长时,性能会随之线性增加。这种现象被称为**语言模型的缩放定律**,正如 Kaplan 等人在2020年[19]最初的GPT3文章[20]中讨论的那样。 127 | 重要的是,在那个阶段,即便最大的 GPT-3 在有提示的情况下也不能胜过小模型精调。所以当时并没有必要去使用昂贵的大模型(即使提示词的标注效率很高)。 128 | 直到2021年,Cobbe 等人[21]发现缩放定律同样适用于精调。这是一个有点悲观的发现,因为它意味着**我们可能被锁定在模型规模上**——虽然模型架构优化可能会在一定程度上提高模型性能,**但效果仍会被锁定在一个区间内(对应模型规模),很难有更显著的突破。** 129 | 130 | 在缩放定律的掌控下(2020年到2021),由于GPT-3无法胜过精调 T5-11B,同时T5-11B微调已经很麻烦了,所以NLP社区的关注点更多的是研究更小的模型或者高效参数适应。Prefix tuning[22]就是提示和适应交叉的一个例子,后来由 He 等人在 2021[23]统一。 131 | 当时的逻辑很简单:**如果精调效果更好,我们就应该在高效参数适应上多下功夫;如果提示词的方法更好,我们应该在训练大型语言模型上投入更多精力****。** 132 | 133 | 之后在 2022 年 1 月,思维链的工作被放出来了。正如作者所展示的那样,思维链提示在性能-比例曲线中表现出明显的**相变**。当模型尺寸足够大时,性能会显著提高并明显超越比例曲线。 134 | 135 | 当使用思维链进行提示时,大模型在复杂推理上的表现明显优于微调,在知识推理上的表现也很有竞争力,并且分布鲁棒性也存在一定的潜力。要达到这样的效果只需要8个左右的示例,这就是为什么范式可能会转变的原因。 136 | 137 | ## 4、范式转变意味着什么? 138 | 139 | 范式转变究竟意味着什么?下面我们给出精调和提示词方法的对比: 140 | 141 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/AzuXfeINxjXCU7x20XJTO3JiapKu4TVkicuLWf5icr3Qiaqesq5LykDX0NICD9XbyfKOKVeUvYNicxJQDTaTib9kdNdA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 142 | 143 | 提示词的好处很明显:我们不再需要繁琐的数据标注和在全量数据上进行精调,只需要编写提示词并获得满足要求的结果,这比精调要快很多。 144 | 145 | 另外要注意的两点是: 146 | 147 | **上下文学习是监督学习吗?** 148 | 149 | - 坦白讲,我不确定。 150 | - 相似之处在于,上下文学习也需要像训练数据一样的示例 151 | - 不同之处在于,上下文学习的泛化行为并不同于监督学习,这使得之前的泛化理论(例如 Rademancher Complexity 或 Neural Tangent Kernel)均不适用。 152 | 153 | 上下文学习真的比监督学习效果要好吗? 154 | 155 | - 答案还未知。 156 | 157 | - 大多数提示词和精调的对比都只比了 提示词+大模型 vs 精调+小模型,但公平的对比应该是 提示词+大模型 vs 精调+大模型,且对比时的基座模型应该一样。所以在最初的思维链文章中,如果 Wei 等人要说明提示词好于精调,他们应该对比精调后的PaLM,而不是GPT3。 158 | 159 | - 我的假设是:**精调可以提高分布内的性能,但会损害分布外的鲁棒性。提示词在分布变化的场景中表现更好,但在同分布场景下不如精调。** 160 | 161 | a.如果假设是真的,那么一个值得研究的问题就是如何在不牺牲其上下文学习能力的情况下进行精调。 162 | 163 | b. **注意分布外精调的效果同样会随着模型尺寸变化**。比如 Yang 等人在2022年的工作中,第四张表就显示,Bart-based的分布外泛化能力会下降,但Bart-large则提升。对于大模型,当测试集的分布和训练集相差不大时,同分布的精调效果也应该会提升。 164 | 165 | 再回顾一下前文提到的逻辑:如果精调更好,我们应该努力研究如何进行参数高效的优化;如果提示词更好,我们应该努力去训练更好的大型语言模型。 166 | 167 | 所以,尽管我们相信大型语言模型有巨大的潜力,仍然没有确凿的证据表明精调和提示词哪种方法更好,因此我们不确定范式是否真的应该转变、或应该转变到什么程度。仔细比较这两种范式,使我们对未来有一个清晰的认识,是非常有意义的。我们将更多讨论留到下一篇文章。 168 | 169 | ## 5、模型应该多大才够? 170 | 171 | 两个数字:62B 和 175B。 172 | 173 | - 模型至少需要62B,使思维链的效果才能大于标准的提示词方法。 174 | - 模型至少需要175B(GPT3的尺寸),思维链的效果才能大于精调小模型(T5 11B)的效果。 175 | 176 | 62B这个数字来自于 Chung 等人 2022 年工作的第五张表[24]: 177 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/AzuXfeINxjXCU7x20XJTO3JiapKu4TVkicuRYRV9sNKs7V5WibTEZQYibanbkv3sElaHwKoUicByIPmYWvdg6eWfqSw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 178 | 179 | 对于所有小于62B的模型,直接用提示词都好于思维链。第一个用思维链更好的模型是 Flan-cont-PaLM 62B 在BBH上的结果。540B的模型使用思维链会在更多任务上得到好的效果,但也不是全部任务都好于精调。 180 | 181 | 另外,理想的尺寸可以小于 540B,在 Suzgun 等人2022年[25]的工作中,作者展示了175B的 InstructGPT 和 175B的 Codex 使用思维链都好于直接用提示词。综合以上结果,我们得到了63B和175B两个数字。所以,如果想要参与这场游戏,首先要有一个大于平均尺寸的模型。 182 | 不过,还有其他大型模型在思维链下的表现差了很多,甚至不能学到思维链,比如 OPT、BLOOM 和 GPT-3 的第一个版本。他们的尺寸都是175B。这就引出了我们下一个要讨论的问题。 183 | 184 | ## 6、规模是唯一的因素吗? 185 | 186 | **不是。** 187 | 188 | 规模是一个必要但不充分的因素。有些模型足够大(比如 OPT 和 BLOOM,都是 175B),但并不能做思维链。 189 | 190 | 有两种模型可以做思维链 (TODO: add discussions about UL2): 191 | 192 | - GPT3系列的模型,包括 text-davinci-002 和 code-davinci-002 (Codex)。**这是仅有的两个具有强大突现能力并可公开访问的模型。** 193 | 194 | a. 除了以上两个模型,其他GPT3模型,包括原来的GPT3,text-davinci-001,以及其他更小的GPT-3模型,都不能做思维链。 195 | 196 | b. 当说“能做思维链”时,我们是指使用思维链方法的效果比直接用提示词、精调T5-11B效果更好。 197 | 198 | c. 另外要注意的是,code-davinci-002 在**语言**任务上的性能始终优于 text-davinci-002。这个观察非常有趣且耐人寻味。这表明**基于代码数据训练的语言模型可以胜过根据语言训练的语言模型**。目前为止我们还不知道是为什么。 199 | 200 | - PaLM系列模型,包括 PaLM、U-PaLM、Flan-PaLM 和 Minerva。这些模型目前还未开放访问(此处@谷歌,快开源吧)。 201 | 为什么会有突现能力目前还不清楚,但我们找出了一下可能产生突现能力的因素: 202 | - 指令精调:GPT-3 text-davinci-002 就是用指令+强化学习精调[26]的产物。在这之前,text-davinci-001 做思维链的效果并不好。同时PaLM[27]在经过指令精调[28]后的效果也有提升。 203 | - 在代码上精调:Codex code-davinci-002 是在代码上进行精调的,它的效果持续好于 text-davinci-002。PaLM 也在代码上进行了调整。从表面上看,代码与语言关系不大,但似乎起了很大作用,我们会在[之后的文章](http://mp.weixin.qq.com/s?__biz=MzU5ODY2MTk3Nw==&mid=2247489981&idx=1&sn=5b7b9e49f6bdc925eae584b6ab7d9229&chksm=fe41978bc9361e9dc263c1cfdaa6ad2d882f5e684e7ec427ca4b15d5b987aa607b1c0b01b4ca&scene=21#wechat_redirect)进行讨论。 204 | - 用思维链精调:在 text-davinci-002 发布时,谷歌已经发布 PaLM 3 个月了。所以 OpenAI 应该看到了思维链相关的工作。还有一些工作表明[29][30],直接用思维链数据进行精调可以激发模型的思维链能力。 205 | 206 | 207 | 然而,所有这些因素在现阶段都是推测。揭示如何训练才能让模型产生突现能力是非常有意义的,我们将更多讨论留到[下一篇文章](http://mp.weixin.qq.com/s?__biz=MzU5ODY2MTk3Nw==&mid=2247489981&idx=1&sn=5b7b9e49f6bdc925eae584b6ab7d9229&chksm=fe41978bc9361e9dc263c1cfdaa6ad2d882f5e684e7ec427ca4b15d5b987aa607b1c0b01b4ca&scene=21#wechat_redirect)。 208 | 209 | ## 7、总结 210 | 211 | 在本文中,我们仔细研究了语言模型的突现能力。我们强调了复杂推理、知识推理和分布外鲁棒性的重要性和其中存在的机会。突现能力是非常令人兴奋的,因为它们可以超越比例定律,并在比例曲线中表现出相变。 212 | 213 | 我们详细讨论了研究范式是否会真的从精调转向上下文学习,但我们目前还没有确切答案,因为精调和上下文学习在分布内、分布外场景下的效果仍有待对比。最后,我们讨论了产生突现能力的三个潜在因素:指令精调、代码精调和思维链精调。非常欢迎大家提出建议和讨论。 214 | 215 | 另外我们还提到了两个尚未讨论的有趣问题: 216 | 217 | - 我们是否能公平对比精调和上下文学习的效果? 218 | - 我们是如何训练大模型,才能让模型具备突现能力、思维链能力? 219 | 220 | 对于这两个问题,我们会在[之后的文章中](http://mp.weixin.qq.com/s?__biz=MzU5ODY2MTk3Nw==&mid=2247489981&idx=1&sn=5b7b9e49f6bdc925eae584b6ab7d9229&chksm=fe41978bc9361e9dc263c1cfdaa6ad2d882f5e684e7ec427ca4b15d5b987aa607b1c0b01b4ca&scene=21#wechat_redirect)进行讨论。 221 | 222 | **中英对照表** 223 | 224 | ![图片](https://mmbiz.qpic.cn/mmbiz_png/lBhAE42wKWpoBBichayYMMq2ia3zNActhC4IRDJgRYZXwjDQI7wzBmvFyRM1vFDaicfzsEiazpPRrK80MFibJEHvYuA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) 225 | 226 | ## 参考资料 227 | 228 | [1] https://www.yitay.net/blog/emergence-and-scaling: https://www.jasonwei.net/blog/emergence 229 | [2] Wei et. al. 2022. Chain of Thought Prompting Elicits Reasoning in Large Language Models: https://arxiv.org/abs/2201.11903 230 | 231 | [3] 便签本: https://lingo.csail.mit.edu/blog/arithmetic_gpt3/ 232 | 233 | [4] Wei et. al. 2022. Emergent Abilities of Large Language Models: https://arxiv.org/abs/2206.07682 234 | 235 | [5] Wei et. al. 2022. Emergent Abilities of Large Language Models: https://arxiv.org/abs/2206.07682 236 | 237 | [6] Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems: https://arxiv.org/abs/2110.14168 238 | 239 | [7] Wei et. al. 2022. Chain of Thought Prompting Elicits Reasoning in Large Language Models: https://arxiv.org/abs/2201.11903 240 | 241 | [8] Wang et. al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models: https://arxiv.org/abs/2203.11171 242 | 243 | [9] Fu et. al. 2022. Complexity-Based Prompting for Multi-step Reasoning: https://arxiv.org/abs/2210.00720 244 | 245 | [10] Chung et. al. 2022. Scaling Instruction-Finetuned Language Models: https://arxiv.org/abs/2210.11416 246 | 247 | [11] Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models: https://arxiv.org/abs/2206.14858 248 | 249 | [12] Jiang et. al. 2022. Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs: https://arxiv.org/abs/2210.12283 250 | 251 | [13] Xu et. al. 2021. Fusing Context Into Knowledge Graph for Commonsense Question Answering: https://aclanthology.org/2021.findings-acl.102.pdf 252 | 253 | [14] Khashabi et. al. 2020. UnifiedQA: Crossing Format Boundaries With a Single QA System: https://aclanthology.org/2020.findings-emnlp.171 254 | 255 | [15] Yu et. al. 2022. Generate rather than Retrieve: Large Language Models are Strong Context Generators: http://arxiv.org/abs/2209.10063 256 | 257 | [16] Jung et. al. 2022. Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations: https://arxiv.org/abs/2205.11822 258 | 259 | [17] Si et. al. 2022. Prompting GPT-3 to be Reliable. : https://arxiv.org/abs/2210.09150 260 | 261 | [18] Fu et. al. 2022. Complexity-based Prompting for Multi-Step Reasoning: https://arxiv.org/abs/2210.00720 262 | 263 | [19] Kaplan et. al. 2020. Scaling Laws for Neural Language Models: https://arxiv.org/abs/2001.08361 264 | 265 | [20] Brown et. al. 2020. Language Models are Few-Shot Learners.: https://arxiv.org/abs/2005.14165 266 | 267 | [21] Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems: https://arxiv.org/abs/2110.14168 268 | 269 | [22] Li and Liang. 2021. Prefix-Tuning: Optimizing Continuous Prompts for Generation: https://aclanthology.org/2021.acl-long.353.pdf 270 | 271 | [23] He et. al. 2021. Towards a Unified View of Parameter-Efficient Transfer Learning: https://arxiv.org/abs/2110.04366 272 | 273 | [24] Chung et. al. 2022. Scaling Instruction-Finetuned Language Models: https://arxiv.org/abs/2210.11416 274 | 275 | [25] Suzgun et. al. 2022. Challenging BIG-Bench tasks and whether chain-of-thought can solve them: https://arxiv.org/abs/2210.09261 276 | 277 | [26] Ouyang et. al. 2022. Training language models to follow instructions with human feedback: https://arxiv.org/abs/2203.02155 278 | 279 | [27] Chowdhery et. al. 2022. PaLM: Scaling Language Modeling with Pathways: https://arxiv.org/abs/2204.02311 280 | 281 | [28] Chung. et. al. 2022. Scaling Instruction-Finetuned Language Models: https://arxiv.org/abs/2210.11416 282 | 283 | [29] Huang et. al. 2022. Large Language Models Can Self-Improve: https://arxiv.org/abs/2210.11610 284 | 285 | [30] Chung. et. al. 2022. Scaling Instruction-Finetuned Language Models: https://arxiv.org/abs/2210.11416 -------------------------------------------------------------------------------- /ChatGPT/Blog/ChatGPT_Technology/LLM_Pre-training_Guide(Bloom-175B).md: -------------------------------------------------------------------------------- 1 | # LLM Pre-training Guide(Bloom-175B) 2 | 3 | 近年来,训练越来越大的语言模型已成为常态(悟道 2.0 模型参数量已经到达 1.75T ,为 GPT-3 的 10 倍)。但如何训练大型语言模型的信息却很少查到 。 4 | 5 | 通过查找,这里整理了简单的训练指南 6 | 7 | > 以 BLOOM-175B 的训练为例 8 | 9 | ## **1. 概况** 10 | 11 | ### **1.1 硬件设施** 12 | 13 | 这里为 BLOOM 的训练使用的硬件设施,可以参考 14 | 15 | - GPUs: 384 张 NVIDIA A100 80GB GPUs (48 个节点,单个节点 8 张卡) + 32 张备用 GPU 16 | - 每个节点 8 个 GPU 使用 NVLink 4 inter-gpu connects,4 OmniPath links 17 | - CPU: AMD EPYC 7543 32-Core Processor 18 | - CPU memory: 每个节点 512GB 19 | - GPU memory: 每个节点 640GB 20 | - 节点间连接: Omni-Path Architecture (OPA) w/ non-blocking fat tree 21 | - NCCL-communications network: a fully dedicated subnet 22 | - 硬盘 IO 网络: IBM 通用并行文件系统-GPFS shared with other nodes and users 23 | 24 | ### **1.2 Checkpoints** 25 | 26 | - 包括 fp32 优化器状态和 bf16+fp32 权重的 Checkpoints 为 2.3TB 27 | - 只有 bf16 权重的 Checkpoints 为 329GB 28 | 29 | ## **2. 模型训练** 30 | 31 | ### **2.1 Megatron-DeepSpeed** 32 | 33 | > 176B BLOOM 模型使用 Megatron-DeepSpeed 进行训练。 34 | 35 | Megatron-DeepSpeed 结合了两种主要技术: 36 | 37 | - DeepSpeed 是一个深度学习优化库,它使分布式训练变得简单、高效和有效。 38 | - Megatron-LM 是由 NVIDIA 的应用深度学习研究团队开发的大型、强大的 Transformer 模型框架。 39 | 40 | DeepSpeed 团队通过将 DeepSpeed 库中的 **ZeRO 分片(ZeRO sharding)和管道并行(pipeline parallelism)与 Megatron-LM 中的张量并行(Tensor Parallelism)相结合,开发了一种基于 3D 并行的实现**。下文会更为详细介绍这些技术。 41 | 42 | Megatron-DeepSpeed 实施 3D 并行以可以让大型模型以非常有效的方式进行训练。。 43 | 44 | - **DataParallel (DP)** - 相同的初始化模型被复制多次,并且每次都被馈送 minibatch 的一部分。处理是并行完成的,所有设置在每个训练步骤结束时进行同步。 45 | - **TensorParallel (TP)** - 每个张量都被分成多个块,因此不是让整个张量驻留在单个 GPU 上,而是张量的每个分片都驻留在其指定的 GPU 上。在处理过程中,每个分片在不同的 GPU 上分别并行处理,最终结果在步骤结束时同步。这也被称作横向并行。 46 | - **PipelineParallel (PP)** - 模型在多个 GPU 上垂直(层级)拆分,因此只有模型的一个或多个层放置在单个 GPU 上。每个 GPU 并行处理管道的不同阶段,并处理一小部分批处理。 47 | - **零冗余优化器 (ZeRO)** - 也执行与 TP 有点类似的张量分片,除了整个张量会及时重建以进行前向或反向计算,因此不需要修改模型。它还支持各种卸载技术以补偿有限的 GPU 内存。 48 | 49 | ### **2.2 数据并行** 50 | 51 | 分布式训练最常见的就是 DistributedDataParallel (DDP) PyTorch 文档。在这种方法中,模型被完全复制到每个 GPU,然后在每次迭代后所有模型相互同步它们的状态。这种方法可以加快训练速度,但只有当模型可以适合单个 GPU 时,它才有效。 52 | 53 | 我们以经典的手写数字识别为例: 54 | 55 | ![img](https://pic4.zhimg.com/80/v2-b508d84ba9c6a9c6ae2c5be70526da43_720w.webp) 56 | 57 | 数据并行通过在 N 台机器上复制模型来实现。拆分 minibatch ,分成 N 个块,让每台机器处理一个块。 58 | 59 | ![img](https://pic3.zhimg.com/80/v2-678f7d2c116f7528be27d6445b6c091a_720w.webp) 60 | 61 | 通过跨多个节点拆分,每个节点要做的工作更少,而且,如果忽略通信开销,上图的训练速度应该快 2 倍。Batch 中的样本可以独立处理。(但值得注意 Batchnorm 等其他算子)因此,在前向传播(计算每个样本的输出)和反向传播(计算单个样本损失权重的梯度)期间不需要通信。 62 | 63 | 为了实现顺序一致性(**生成的梯度与在单台机器上使用顺序训练计算出的梯度相同**)。需要在更新权重之前同步梯度。最常用的损失函数是单个样本损失的均值: 64 | 65 | loss(batch)=1N∑i=0batchsizeloss(inputi,targeti) 66 | 67 | 为了计算更方便,最终梯度是每个项的梯度的总和。因此,可以在每台机器上独立计算样本的梯度,并在执行权重更新之前将它们相加。 68 | 69 | ∇Wsync′d=1#Nodes∑i=0#Nodes∇Wilocal 70 | 71 | > 值得注意的是如果使用随机梯度下降(SGD),同步权重和同步梯度是一样的: 72 | > 1N∑i(W+λ∇Wi)=W+λN∑i∇Wi**但是,这不适用于像 Adam 这样的有状态优化器**,因为更新状态是梯度的非线性函数。如果使用 Adam 并同步权重而不是梯度,则每个节点上的优化器状态都会发生分歧,并且会失去顺序一致性。 73 | 74 | ### **2.2.1 ZeRO 数据并行** 75 | 76 | 详细内容可以参考:[https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/](https://link.zhihu.com/?target=https%3A//www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/) 77 | 78 | ![img](https://pic1.zhimg.com/80/v2-b5548a391adf3b983876ce94a0be83ac_720w.webp) 79 | 80 | ZeRO 具有三个主要的优化阶段,它们对应于优化器状态(optimizer states)、梯度(gradients)和参数(parameters)的划分。累积启用时: 81 | 82 | 1. 优化器状态分区 (Pos) – 内存减少 4 倍,通信量与数据并行性相同 83 | 2. 添加梯度分区 (Pos+g) – 内存减少 8 倍,通信量与数据并行性相同 84 | 3. 添加参数分区 (Pos+g+p) – 内存减少与数据并行度 Nd 成线性关系。例如,拆分为 64 个 GPU (Nd=64) 内存将减少到 1/64 。GPU 通信量略有增加 50%。 85 | 86 | > ZeRO 消除了显存冗余并使集群显存容量可用。启用所有三个阶段后,ZeRO 可以仅在 1024 个 NVIDIA GPU 上训练万亿参数模型。例如像 Adam 这样的 16 位精度优化器的万亿参数模型需要大约 16 TB 的内存来保存优化器状态、梯度和参数。 16TB 除以 1024 就是 16GB,这对于 GPU 来说是一个合理的范围。 87 | 88 | ### **2.3 张量并行** 89 | 90 | Megatron-LM 论文:[https://arxiv.org/abs/2104.04473](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2104.04473) 91 | 92 | 在 Tensor Parallelism (TP) 中,每个 GPU 仅处理张量的一部分,并且仅聚合完整的张量以用于需要整个事物的操作。 这里使用 Megatron-LM 论文中的实现:GPU 集群上的高效大规模语言模型训练。 任何 Transformer 的主要构建块都是一个完全连接的 `nn.Linear`,然后是一个非线性激活 GeLU。 按照 Megatron 论文的符号,可以将其点积部分写为Y=GeLU(XA),其中 `X` 和 `Y` 是输入和输出向量,`A` 是权重矩阵。 如果以矩阵形式查看计算,很容易看出矩阵乘法如何在多个 GPU 之间拆分: 93 | 94 | ![img](https://pic4.zhimg.com/80/v2-ad9ba269a2752f2af36bfbcafc2f8ce7_720w.webp) 95 | 96 | 如果我们将权重矩阵 `A` 按列拆分到 N 个 GPU 上并并行执行矩阵乘法 XA1 到 XAn,那么最终将得到 N 个输出向量、、、Y1、Y2、...、Yn,它们可以独立地输入到 GeLU: 97 | 98 | [Y1,Y2]=[GeLU(XA1),GeLU(XA2)] 99 | 100 | > 注意 Y 矩阵沿列拆分,我们可以沿其行拆分第二个 GEMM,这样它就可以直接获取 GeLU 的输出,而无需任何额外的通信。 101 | 102 | 使用这个原理,可以更新任意深度的 MLP,同时在每个行列序列之后同步 GPU。 Megatron-LM 论文为此提供了一个有用的说明: 103 | 104 | ![img](https://pic4.zhimg.com/80/v2-8c0983e3cb19940bcd05ee4c2275cbaf_720w.webp) 105 | 106 | 其中 `f` 是前向传播中的恒等运算符,在反向传播中是 `all-reduce`,而 `g` 是前向传播中的 `all-reduce` 和反向传播中的恒等运算符。 并行化多头注意力层甚至更简单,因为它们本来就是并行的 107 | 108 | ![img](https://pic3.zhimg.com/80/v2-1a3ada517a94ac7be982533c75e219fe_720w.webp) 109 | 110 | 特殊考虑:由于前向和后向传播中每层都有两个 `all-reduce`,因此 TP 需要在设备之间进行非常快速的互连。因此,除非有一个非常快的网络,否则**不建议跨多个节点进行 TP**。 111 | 112 | > 在 BLOOM 的例子中,节点间通信比 PCIe 慢得多。实际上,如果节点有 4 个 GPU,则最高 TP 度因此为 4。如果需要 TP 度为 8,则需要使用至少有 8 个 GPU 的节点。 该组件由 Megatron-LM 实现。 Megatron-LM 最近扩展了张量并行性,以包括序列并行性,它沿着序列维度拆分不能像上面那样拆分的操作,例如 LayerNorm。论文 Reducing Activation Recomputation in Large Transformer Models 提供了此技术的详细信息 113 | 114 | ### **2.4 管道并行** 115 | 116 | 朴素流水线并行(Naive Pipeline Parallelism)是将一组模型层分布在多个 GPU 上,并简单地将数据从 GPU 移动到 GPU,就好像它是一个大型复合 GPU 一样。该机制相对简单 - 切换所需的层 `.to()` 所需的设备,现在只要数据进出这些层,就会将数据切换到与该层相同的设备,其余部分保持不变。 这显示了纵向模型并行性,会垂直切片 layers。例如,如果下图显示一个 8 层模型: 117 | 118 | ``` 119 | =================== =================== 120 | | 0 | 1 | 2 | 3 | | 4 | 5 | 6 | 7 | 121 | =================== =================== 122 | GPU0 GPU1 123 | ``` 124 | 125 | 只是将它垂直分成 2 部分,将层 0-3 放置在 GPU0 上,将层 4-7 放置在 GPU1 上。 126 | 127 | 现在,当数据从第 0 层到第 1 层、第 1 层到第 2 层和第 2 层到第 3 层传输时,这就像单个 GPU 上普通模型的前向传递。但是当数据需要从第 3 层传递到第 4 层时,它需要从 GPU0 传递到 GPU1,**这会引入通信开销**。如果参与的 GPU 位于同一计算节点(例如同一台物理机器)上,则此复制非常快,但如果 GPU 位于不同的计算节点(例如多台机器)上,通信开销可能会大得多。 然后第 4 到 5 到 6 到 7 层就像普通模型一样,当第 7 层完成时,我们通常需要将数据发送回标签所在的第 0 层(或者将标签发送到最后一层)。现在可以计算损失并且优化器可以完成它的工作。 128 | 129 | 问题: 130 | 131 | - 之所以这个被称为朴素流水线并行,因为其存在缺陷:**是除了一个 GPU 之外的所有 GPU 在任何给定时刻都是空闲的**。因此,如果使用 4 个 GPU,则几乎等同于将单个 GPU 的内存量翻两番,而忽略其余硬件。另外还有在设备之间复制数据的开销。所以 4x 6GB 卡将能够容纳与使用朴素流水线并行的 1x 24GB 卡相同大小的模型训练,但后者将更快地完成训练,因为它没有数据复制开销。 132 | - 共享嵌入可能需要在 GPU 之间来回复制。 133 | 134 | 流水线并行 (PP) 与上述朴素流水线并行几乎相同,但它解决了 GPU 闲置问题,方法是将传入的 batch 为 micro-batches 并人工创建流水线,从而允许不同的 GPU 同时参与计算过程。 GPipe 论文([https://ai.googleblog.com/2019/03/introducing-gpipe-open-source-library.html](https://link.zhihu.com/?target=https%3A//ai.googleblog.com/2019/03/introducing-gpipe-open-source-library.html))中的下图显示了两者差别: 135 | 136 | ![img](https://pic2.zhimg.com/80/v2-a70604fea85190050549999e7a70d6f5_720w.webp) 137 | 138 | 从图表中很容易看出第二种方式的空白区域(GPU 处于空闲状态)更少。空白部分称为“气泡”。 **该图的两个部分都显示了 4 度的并行性**。即 4 个 GPU 参与管道。于是就有了 F0、F1、F2、F3 这 4 个管道的正向路径,然后是 B3、B2、B1、B0 的返回逆序反向路径。 **PP 引入了一个新的超参数来调整,称为块**。它定义了通过同一管道阶段按顺序发送多少数据块。例如,在底部图表中,可以看到 `chunks=4`。 GPU0 在块 0、1、2 和 3(F0,0、F0,1、F0,2、F0,3)上执行相同的前向路径,然后等待其他 GPU 完成它们的工作,只有当他们的工作开始完成时,GPU0 才开始重新工作,做 3、2、1 和 0 块的后向路径(B0,3, B0,2, B0,1, B0,0) 139 | 140 | > 请注意,从概念上讲,这与梯度累积步骤 (GAS) 的概念相同。 PyTorch 使用 chunks,而 DeepSpeed 指的是与 GAS 相同的超参数。 141 | 142 | 因为块,PP 引入了 micro-batches(MBS)的概念。 DP 将全局数据批量大小拆分为小批量,因此如果 DP 度为 4,则 global data batch size 1024 将拆分为 4 个 mini-batches,每个 mini-batches 256 (1024/4)。如果块(或 GAS)的数量为 32,最终得到的 micro-batches 大小为 8(256/32)。每个流水线阶段一次处理一个 micro-batches。 143 | 144 | > 为了计算 DP + PP 设置的 global data batch size,执行:$$mbs*chunks*dp_{degree} (8*32*4=1024)$$。 145 | 146 | 使用 `chunks=1` 你最终会得到非常低效的朴素管道并行。**如果块值非常大,您最终会得到很小的 micro-batches 大小,这也可能不是很有效**。因此,必须通过实验来找到导致 GPU 最有效利用的值。 虽然该图显示存在无法并行化的空白时间气泡,因为最后一个前向阶段必须等待后向完成管道,但为块找到最佳值的目的是**实现高并发所有参与 GPU 的 GPU 利用率,这转化为最小化气泡的大小**。 这种调度机制被称为 *all forward all backward*。 虽然 Megatron-LM 和 DeepSpeed 都有自己的 PP 协议实现,但 Megatron-DeepSpeed 使用 DeepSpeed 实现,因为它与 DeepSpeed 的其他方面集成在一起。 147 | 148 | > 在 bloom 实践中: 149 | > 这里的另一个重要问题是 word embedding 矩阵的大小。虽然通常 word embedding 矩阵比 transformer block 消耗更少的内存,但在有 250k 词汇表的情况下, word embedding 层需要 7.2GB 的 bf16 权重,而 transformer block 仅为 4.9GB。因此,不得不指示 Megatron-Deepspeed 将 word embedding 层视为一个 transformer block。所以有一个 72 层的管道,其中 2 个专门用于 embedding(第一个和最后一个)。这允许平衡 GPU 内存消耗。如果不这样做,我们就会让第一阶段和最后阶段消耗大部分 GPU 内存,而 95% 的 GPU 将使用更少的内存,因此训练将远非高效。 150 | 151 | ### **2.5 DP+PP** 152 | 153 | DeepSpeed 教程([https://www.deepspeed.ai/tutorials/pipeline/](https://link.zhihu.com/?target=https%3A//www.deepspeed.ai/tutorials/pipeline/))中的下图演示了如何将 DP 与 PP 结合起来。 154 | 155 | ![img](https://pic1.zhimg.com/80/v2-127d807df8f6efc7b1f8cb6d5ff38620_720w.webp) 156 | 157 | 这里重要的是要了解 DP Rank 0 如何看不到 GPU2 (和普通 DP 一样)以及 DP Rank 1 如何看不到 GPU3。对于 DP,只有 GPU 0 和 1,它在其中提供数据,就像只有 2 个 GPU 一样。 GPU0 使用 PP ”透明地“将它的一些负载卸载到 GPU2。 GPU1 通过使用 GPU3 的帮助来做同样的事情。篇幅限制就不展示了。 由于每个维度至少需要 2 个 GPU,因此在这里至少需要 4 个 GPU。 158 | 159 | ### **2.6 DP+PP+TP** 160 | 161 | 为了获得更高效的训练,PP 与 TP 和 DP 相结合,称为 3D 并行性。这可以在下图中看到。 162 | 163 | ![img](https://pic1.zhimg.com/80/v2-7951815d9ab95beedf1d238bc58e73f0_720w.webp) 164 | 165 | 可以参考:[https://www.microsoft.com/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/](https://link.zhihu.com/?target=https%3A//www.microsoft.com/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/) 166 | 167 | > 由于每个维度至少需要 2 个 GPU,因此在这里至少需要 8 个 GPU 才能实现完整的 3D 并行性。 168 | 169 | ### **2.7 ZeRO DP+PP+TP** 170 | 171 | DeepSpeed 的主要功能之一是 ZeRO,它是 DP 的超级可扩展扩展。 ZeRO Data Parallelism 中已经在前文讨论过了。通常它是一个独立的功能,不需要 PP 或 TP。但可以与PP、TP结合使用。 当 ZeRO-DP 与 PP(和可选的 TP)结合时,它通常只启用 ZeRO 阶段 1,它只对优化器状态进行分片。 ZeRO 第 2 阶段还对梯度进行分片,第 3 阶段也对模型权重进行分片。 虽然理论上可以将 ZeRO 第 2 阶段与 Pipeline Parallelism 一起使用,但它会对性能产生不良影响。每个 micro-batches 都需要一个额外的 reduce-scatter 集合来在分片之前聚合梯度,这会增加潜在的显着通信开销。根据流水线并行性的性质,使用小的 micro-batches,重点是尝试平衡计算强度( micro-batches 大小)与最小化流水线气泡(micro-batches 的数量)。因此,这些通信成本将会显著增加。 **此外,由于 PP,层数已经比正常情况下少,因此内存节省不会很大。 PP 已经将梯度大小减少了 1/PP,因此在此之上的梯度分片节省不如纯 DP 显著。** ZeRO 第 3 阶段也可用于训练这种规模的模型,但是,它需要比 DeepSpeed 3D 并行实现更多的通信。 172 | 173 | ### **2.8 BF16Optimizer** 174 | 175 | ![img](https://pic4.zhimg.com/80/v2-f16eec03db8842daf0d588efaef69a9f_720w.webp) 176 | 177 | 在 FP16 中训练巨大的 LLM 模型是一个禁忌(在 FP16 训练会导致数值不稳定,或者不能产生足够的精度使模型正确收敛 )。 178 | 179 | > BLOOM 训练报告中也指出了 FP16 loss 不稳定的问题 180 | 181 | ![img](https://pic1.zhimg.com/80/v2-f152a3ff2431fc795a54fc830f2ec578_720w.webp) 182 | 183 | BF16 格式的关键是具有与 FP32 相同的指数位,因此不会与 FP16 一样容易溢出,使用最大数值范围为 64k 的 **FP16,只能乘以小范围的数**。例如可以做 `250*250=62500`,但如果你尝试 `255*255=65025`,结果就会溢出,这是导致训练期间出现主要问题的原因。这意味着你的权重必须保持很小。一种称为损失缩放的技术可以帮助解决这个问题,但是当模型变得非常大时,FP16 的有限范围仍然是一个问题。 **BF16 就没有这个问题**,可以轻松做到 `10 000*10 000=100 000 000` 当然,由于 BF16 和 FP16 的大小相同,均为 2 个字节,因此,当使用 BF16 时,它的劣势也会暴露:精度非常差。 无论使用 BF16 还是 FP16,都有一个权重副本始终在 FP32 中——这是由优化器更新的内容。**因此 16 位格式仅用于计算,优化器以全精度 FP32 更新权重,然后将它们转换为 16 位格式以用于下一次迭代**。 184 | 185 | 一个关键问题是梯度累积,它是管道并行性的主要特征之一,因为每个 micro-batches 的梯度都会累积。在 FP32 中实现梯度累积以保持训练的精确性至关重要,这就是 BF16Optimizer 所做的。 186 | 187 | 实践中,除了其他改进之外,BLOOM 团队认为使用 BF16 混合精度训练将潜在的噩梦变成了一个相对平稳的过程,这可以从以下 lm 损失图中观察到: 188 | 189 | ![img](https://pic1.zhimg.com/80/v2-c837cde0c7c6a0086b7ee89f697db754_720w.webp) 190 | 191 | ## **3. NCCL** 192 | 193 | ![img](https://pic1.zhimg.com/80/v2-d32c46a261463e1ba5caef6b5e0fe6d0_720w.webp) 194 | 195 | NCCL 全称 Nvidia Collective multi-GPU Communication Library ,是一个实现多 GPU 的collective communication 通信(all-gather, reduce, broadcast)库,Nvidia 做了很多优化,可以在 PCIe、Nvlink、InfiniBand 上实现较高的通信速度。 196 | 197 | NCCL 具有以下技术特性: 198 | 199 | - 高性能:NCCL 方便地消除了开发人员针对特定机器优化应用程序的需要。 NCCL 在节点内和跨节点的多个 GPU 上提供快速集合。 200 | - 易于编程:NCCL 使用一个简单的 C API,可以很容易地从各种编程语言中访问。NCCL 紧跟由 MPI(消息传递接口)定义的流行的集合 API。 201 | - 兼容性:NCCL 几乎与任何多 GPU 并行化模型兼容,例如:单线程、多线程(每个 GPU 使用一个线程)和多进程(MPI 与 GPU 上的多线程操作相结合)。 202 | 203 | ### **3.1. NCCL 特点** 204 | 205 | 下面分别从以下几个方面来介绍 NCCL 的特点,包括基本的 communication primitive、ring-base collectives、NCCL 在单机多卡上以及多机多卡实现 206 | 207 | ### **3.2 Communication Primitive** 208 | 209 | 并行任务的通信一般可以分为 Point-to-point communication 和 Collective communication 。P2P 通信这种模式只有一个 sender 和一个 receiver,实现起来比较简单。 第二种 Collective communication 包含多个 sender 多个 receiver,一般的通信原语包括 broadcast,gather,all-gather,scatter,reduce,all-reduce,reduce-scatter,all-to-all 等。简单介绍几个常用的操作: 210 | 211 | - Reduce:从多个 sender 那里接收数据,最终 combine 到一个节点上 212 | 213 | ![img](https://pic2.zhimg.com/80/v2-fe26ffda0f48c40b3f4a8feb7a73a669_720w.webp) 214 | 215 | - All-reduce:从多个 sender 那里接收数据,最终 combine 到每一个节点上 216 | 217 | ![img](https://pic3.zhimg.com/80/v2-42844fc757ab01338f110622f0bb4962_720w.webp) 218 | 219 | 而传统 Collective communication 假设通信节点组成的 topology 是一颗 fat tree,如下图所示,这样通信效率最高。但实际的通信 topology 可能比较复杂,并不是一个 fat tree。因此一般用 ring-based Collective communication。 220 | 221 | ![img](https://pic4.zhimg.com/80/v2-37413835247c9a2763e1286e2af7d02f_720w.webp) 222 | 223 | ### **3.3 Ring-base Collectives** 224 | 225 | ring-base collectives 将所有的通信节点通过首尾连接形成一个单向环,数据在环上依次传输。以 broadcast 为例, 假设有 4 个 GPU,GPU0 为 sender 将信息发送给剩下的 GPU,按照环的方式依次传输,GPU0-->GPU1-->GPU2-->GPU3,若数据量为 N,带宽为 B,整个传输时间为(K−1)N/B。时间随着节点数线性增长,不是很高效。 226 | 227 | ![img](https://pic2.zhimg.com/80/v2-12af80e172e09cc92e4e6dcde6841311_720w.webp) 228 | 229 | 下面把要传输的数据分成 S 份,每次只传 N/S 的数据量,传输过程如下所示: 230 | 231 | ![img](https://pic4.zhimg.com/80/v2-fed2f439627bc1c16bec63cc7ec84cdf_720w.webp) 232 | 233 | GPU1 接收到 GPU0 的一份数据后,也接着传到环的下个节点,这样以此类推,最后花的时间为 234 | 235 | S∗(N/S/B)+(k−2)∗(N/S/B)=N(S+K−2)/(SB)→N/B 236 | 237 | ,条件是 S 远大于 K,即数据的份数大于节点数,这个很容易满足。所以通信时间不随节点数的增加而增加,只和数据总量以及带宽有关。其它通信操作比如 reduce、gather 以此类推。 那么在以GPU为通信节点的场景下,怎么构建通信环呢?如下图所示: 单机 4 卡通过同一个 PCIe switch 挂载在一棵CPU的场景: 238 | 239 | ![img](https://pic4.zhimg.com/80/v2-dac47e37dedf4ce07c92861c138b91e7_720w.webp) 240 | 241 | 单机 8 卡通过两个 CPU 下不同的 PCIe switch 挂载的场景: 242 | 243 | ![img](https://pic4.zhimg.com/80/v2-1400c6742580fabed45eb4d02553df83_720w.webp) 244 | 245 | ### **3.4 NCCL 实现** 246 | 247 | NCCL 实现成 CUDA C++ kernels,包含 3 种 primitive operations:Copy,Reduce,ReduceAndCopy。NCCL 1.0 版本只支持单机多卡,卡之间通过 PCIe、NVlink、GPU Direct P2P来通信。NCCL 2.0 会支持多机多卡,多机间通过 Sockets (Ethernet) 或者 InfiniBand with GPU Direct RDMA 通信。 下图所示,单机内多卡通过 PCIe 以及 CPU socket 通信,多机通过 InfiniBand 通信。 248 | 249 | ![img](https://pic4.zhimg.com/80/v2-c3c96eff75e8f1b161b6c62188370ea7_720w.webp) 250 | 251 | 同样,在多机多卡内部,也要构成一个通信环 252 | 253 | ![img](https://pic2.zhimg.com/80/v2-5614a5e2da87f34b0b76eabe40339f35_720w.webp) 254 | 255 | 下面是单机 4卡(Maxwel GPU)上各个操作随着通信量增加的带宽速度变化,可以看到带宽上限能达到10GB/s,接近PCIe的带宽。 256 | 257 | ![img](https://pic1.zhimg.com/80/v2-65f4fb71798f71c2663c369329d8a058_720w.webp) 258 | 259 | 下图是 Allreduce 在单机不同架构下的速度比较: 260 | 261 | ![img](https://pic2.zhimg.com/80/v2-155b290bdc2964e129d24fadc5784f8d_720w.webp) 262 | 263 | 先不看 DGX-1 架构,这是 Nvidia 推出的深度学习平台,带宽能达到 60GB/s 。前面三个是单机多卡典型的三种连接方式,第三种是四张卡都在一个 PCIe switch 上,所以带宽较高,能达到 >10GB/s PCIe 的带宽大小,第二种是两个 GPU 通过 switch 相连后再经过 CPU 连接,速度会稍微低一点,第一种是两个 GPU 通过 CPU 然后通过 QPI 和另一个 CPU 上的两块卡相连,因此速度最慢,但也能达到 >5GB/s。 下图是 Allreduce 多机下的速度表现,左图两机 8 卡,机内 PCIe ,机间 InfiniBand 能达到 >10GB/s 的速度,InfiniBand 基本上能达到机内的通信速度。 264 | 265 | ![img](https://pic3.zhimg.com/80/v2-7b912f62b04ea7c1853fb4c1ae037b46_720w.webp) 266 | 267 | 下图是 NCCL 在 CNTK ResNet50上的 scalability,32 卡基本能达到线性加速比。 268 | 269 | ![img](https://pic1.zhimg.com/80/v2-b12bcc3d8b0a89abb5403cd24e0009a0_720w.webp) 270 | 271 | ## **参考资料** 272 | 273 | - [https://huggingface.co/blog/bloom-megatron-deepspeed](https://link.zhihu.com/?target=https%3A//huggingface.co/blog/bloom-megatron-deepspeed) 274 | - [https://siboehm.com/articles/22/data-parallel-training](https://link.zhihu.com/?target=https%3A//siboehm.com/articles/22/data-parallel-training) 275 | - [https://www.microsoft.com/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/](https://link.zhihu.com/?target=https%3A//www.microsoft.com/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/) 276 | - [https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/overview.html](https://link.zhihu.com/?target=https%3A//docs.nvidia.com/deeplearning/nccl/user-guide/docs/overview.html) 277 | - [https://cloud.google.com/tpu/do](https://link.zhihu.com/?target=https%3A//cloud.google.com/tpu/docs/bfloat16%3Fhl%3Dzh-cn) --------------------------------------------------------------------------------