├── .gitattributes
├── README.md
└── main
├── example4.png
├── example6-1.png
├── example6-2.png
└── test.py
/.gitattributes:
--------------------------------------------------------------------------------
1 | # Auto detect text files and perform LF normalization
2 | * text=auto
3 |
--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | # Big Data and Cloud Computing
2 |
3 | > [!NOTE]
4 | > 南京工程学院计算机工程学院2023-2024春学期大数据与云计算技术课程(0809702984)
5 |
6 |
7 |
8 |
9 | ### 实验一:代码云平台操作基础
10 |
11 | 目标:掌握GitHub代码云平台基础操作。
12 |
13 | 实验内容:
14 | - 创建GitHub账号
15 | - 创建Repo
16 | - 基于MarkDown编写README.md
17 | - 提交代码
18 | - Fork&Star Repo
19 | - 基于Repo改写main/test.py
20 |
21 | ### 实验二:机器学习云平台基础操作
22 |
23 | 目标:掌握Kaggle机器学习云平台基础操作。
24 |
25 | 实验内容:
26 | - 创建Kaggle账号
27 | - 新建Notebook
28 | - 新建Dataset
29 | - 编写并运行Python代码,实现:
30 | - 快速排序
31 | - 九九乘法表
32 | - Fibonacci数列
33 |
34 | ### 实验三:云平台自然语言处理技术
35 |
36 | 目标:了解在云平台下的自然语言处理技术,熟悉Gensim自然语言处理工具。
37 |
38 | 实验内容:
39 | - 新建Corpus并剔除Stopwords
40 | - 创建自然语言模型(例如LSI,TF-IDF)
41 | - 初始化相似度查询结构
42 | - 相似度查询
43 |
44 | 参考:
45 | - https://radimrehurek.com/gensim/auto_examples/core/run_similarity_queries.html
46 | - https://radimrehurek.com/gensim/auto_examples/core/run_core_concepts.html
47 |
48 | ### 实验四:云平台词向量数据可视化方法
49 |
50 | 目标:了解在云平台下的词向量数据可视化方法
51 |
52 | 实验内容:
53 | - 加载/创建word2vec词向量模型,可根据Corpus,自由选择N个目标词,例如 `keys = ['game', 'terrorist', 'farmers', 'mind']`
54 | - 根据词向量计算相似度,并输出目标词的Top-K相关词
55 | - 基于t-SNE算法将词向量降维
56 | - 基于matplotlib将目标词和对应Top-K相关词进行可视化展示
57 |
58 | 提示:
59 | - `from gensim.test.utils import datapath`,`datapath('word2vec_pre_kv_c')`
60 | - `from gensim.models import KeyedVectors`,`KeyedVectors.load_word2vec_format`,`most_similar(word, topn=30)`
61 | - `from sklearn.manifold import TSNE`
62 |
63 | 参考:
64 | - https://radimrehurek.com/gensim/models/keyedvectors.html
65 | - https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html
66 | - https://matplotlib.org/
67 |
68 | 例子:
69 |
70 |
71 |
72 | ### 实验五:Sentiment Analysis of IMDB Movie Reviews 云平台编程实战1
73 |
74 | 目标:基于Kaggle云平台,实现IMDB影评情感分析
75 |
76 | 实验内容:
77 | - 导入数据集,输出数据集描述,并展示部分数据样本
78 | - 以8:2方式将数据分为训练集与测试集(注意文本对应的情感标签需一并处理)
79 | - 文本数据预处理,包括移除stopwords、html等噪声文本
80 | - 选取合适的自然语言处理模型对文本进行处理,例如BOW模型、TF-IDF模型、word2vec模型等
81 |
82 | 参考:
83 | - https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
84 |
85 | ### 实验六:Sentiment Analysis of IMDB Movie Reviews 云平台编程实战2
86 |
87 | 目标:基于Kaggle云平台,实现IMDB影评情感分析
88 |
89 | 实验内容:
90 | - 针对数据集建立预测模型
91 | - 在训练集上训练模型
92 | - 在测试集上输出预测结果,其中评价指标包括F1-Score,Accuracy
93 | - 选做:可视化展示正面/负面评价关键词
94 |
95 | 参考:
96 | - https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
97 |
98 | 例子:
99 |
100 |
101 |
102 |
103 |
--------------------------------------------------------------------------------
/main/example4.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cuishicheng/Big-Data-and-Cloud-Computing/1b1cd9d9c62f2a0786ac681ab28fa47c133e6a76/main/example4.png
--------------------------------------------------------------------------------
/main/example6-1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cuishicheng/Big-Data-and-Cloud-Computing/1b1cd9d9c62f2a0786ac681ab28fa47c133e6a76/main/example6-1.png
--------------------------------------------------------------------------------
/main/example6-2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cuishicheng/Big-Data-and-Cloud-Computing/1b1cd9d9c62f2a0786ac681ab28fa47c133e6a76/main/example6-2.png
--------------------------------------------------------------------------------
/main/test.py:
--------------------------------------------------------------------------------
1 | print('Hello World!')
--------------------------------------------------------------------------------