├── .gitattributes ├── README.md └── main ├── example4.png ├── example6-1.png ├── example6-2.png └── test.py /.gitattributes: -------------------------------------------------------------------------------- 1 | # Auto detect text files and perform LF normalization 2 | * text=auto 3 | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # Big Data and Cloud Computing 2 | 3 | > [!NOTE] 4 | > 南京工程学院计算机工程学院2023-2024春学期大数据与云计算技术课程(0809702984) 5 | 6 | 7 | 8 | 9 | ### 实验一:代码云平台操作基础 10 | 11 | 目标:掌握GitHub代码云平台基础操作。 12 | 13 | 实验内容: 14 | - 创建GitHub账号 15 | - 创建Repo 16 | - 基于MarkDown编写README.md 17 | - 提交代码 18 | - Fork&Star Repo 19 | - 基于Repo改写main/test.py 20 | 21 | ### 实验二:机器学习云平台基础操作 22 | 23 | 目标:掌握Kaggle机器学习云平台基础操作。 24 | 25 | 实验内容: 26 | - 创建Kaggle账号 27 | - 新建Notebook 28 | - 新建Dataset 29 | - 编写并运行Python代码,实现: 30 | - 快速排序 31 | - 九九乘法表 32 | - Fibonacci数列 33 | 34 | ### 实验三:云平台自然语言处理技术 35 | 36 | 目标:了解在云平台下的自然语言处理技术,熟悉Gensim自然语言处理工具。 37 | 38 | 实验内容: 39 | - 新建Corpus并剔除Stopwords 40 | - 创建自然语言模型(例如LSI,TF-IDF) 41 | - 初始化相似度查询结构 42 | - 相似度查询 43 | 44 | 参考: 45 | - https://radimrehurek.com/gensim/auto_examples/core/run_similarity_queries.html 46 | - https://radimrehurek.com/gensim/auto_examples/core/run_core_concepts.html 47 | 48 | ### 实验四:云平台词向量数据可视化方法 49 | 50 | 目标:了解在云平台下的词向量数据可视化方法 51 | 52 | 实验内容: 53 | - 加载/创建word2vec词向量模型,可根据Corpus,自由选择N个目标词,例如 `keys = ['game', 'terrorist', 'farmers', 'mind']` 54 | - 根据词向量计算相似度,并输出目标词的Top-K相关词 55 | - 基于t-SNE算法将词向量降维 56 | - 基于matplotlib将目标词和对应Top-K相关词进行可视化展示 57 | 58 | 提示: 59 | - `from gensim.test.utils import datapath`,`datapath('word2vec_pre_kv_c')` 60 | - `from gensim.models import KeyedVectors`,`KeyedVectors.load_word2vec_format`,`most_similar(word, topn=30)` 61 | - `from sklearn.manifold import TSNE` 62 | 63 | 参考: 64 | - https://radimrehurek.com/gensim/models/keyedvectors.html 65 | - https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html 66 | - https://matplotlib.org/ 67 | 68 | 例子: 69 | 70 | 71 | 72 | ### 实验五:Sentiment Analysis of IMDB Movie Reviews 云平台编程实战1 73 | 74 | 目标:基于Kaggle云平台,实现IMDB影评情感分析 75 | 76 | 实验内容: 77 | - 导入数据集,输出数据集描述,并展示部分数据样本 78 | - 以8:2方式将数据分为训练集与测试集(注意文本对应的情感标签需一并处理) 79 | - 文本数据预处理,包括移除stopwords、html等噪声文本 80 | - 选取合适的自然语言处理模型对文本进行处理,例如BOW模型、TF-IDF模型、word2vec模型等 81 | 82 | 参考: 83 | - https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews 84 | 85 | ### 实验六:Sentiment Analysis of IMDB Movie Reviews 云平台编程实战2 86 | 87 | 目标:基于Kaggle云平台,实现IMDB影评情感分析 88 | 89 | 实验内容: 90 | - 针对数据集建立预测模型 91 | - 在训练集上训练模型 92 | - 在测试集上输出预测结果,其中评价指标包括F1-Score,Accuracy 93 | - 选做:可视化展示正面/负面评价关键词 94 | 95 | 参考: 96 | - https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews 97 | 98 | 例子: 99 | 100 | 101 | 102 | 103 | -------------------------------------------------------------------------------- /main/example4.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/cuishicheng/Big-Data-and-Cloud-Computing/1b1cd9d9c62f2a0786ac681ab28fa47c133e6a76/main/example4.png -------------------------------------------------------------------------------- /main/example6-1.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/cuishicheng/Big-Data-and-Cloud-Computing/1b1cd9d9c62f2a0786ac681ab28fa47c133e6a76/main/example6-1.png -------------------------------------------------------------------------------- /main/example6-2.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/cuishicheng/Big-Data-and-Cloud-Computing/1b1cd9d9c62f2a0786ac681ab28fa47c133e6a76/main/example6-2.png -------------------------------------------------------------------------------- /main/test.py: -------------------------------------------------------------------------------- 1 | print('Hello World!') --------------------------------------------------------------------------------