├── .gitattributes
├── README.md
└── main
    ├── example4.png
    ├── example6-1.png
    ├── example6-2.png
    └── test.py


/.gitattributes:
--------------------------------------------------------------------------------
1 | # Auto detect text files and perform LF normalization
2 | * text=auto
3 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
  1 | # Big Data and Cloud Computing
  2 | 
  3 | > [!NOTE] 
  4 | > 南京工程学院计算机工程学院2023-2024春学期大数据与云计算技术课程（0809702984）
  5 | 
  6 | 
  7 | 
  8 | 
  9 | ### 实验一：代码云平台操作基础
 10 | 
 11 | 目标：掌握GitHub代码云平台基础操作。
 12 | 
 13 | 实验内容：
 14 | - 创建GitHub账号
 15 | - 创建Repo
 16 | - 基于MarkDown编写README.md
 17 | - 提交代码
 18 | - Fork&Star Repo
 19 | - 基于Repo改写main/test.py
 20 | 
 21 | ### 实验二：机器学习云平台基础操作
 22 | 
 23 | 目标：掌握Kaggle机器学习云平台基础操作。
 24 | 
 25 | 实验内容：
 26 | - 创建Kaggle账号
 27 | - 新建Notebook
 28 | - 新建Dataset
 29 | - 编写并运行Python代码，实现：
 30 |   - 快速排序
 31 |   - 九九乘法表
 32 |   - Fibonacci数列
 33 | 
 34 | ### 实验三：云平台自然语言处理技术
 35 | 
 36 | 目标：了解在云平台下的自然语言处理技术，熟悉Gensim自然语言处理工具。
 37 | 
 38 | 实验内容：
 39 | - 新建Corpus并剔除Stopwords
 40 | - 创建自然语言模型（例如LSI，TF-IDF）
 41 | - 初始化相似度查询结构
 42 | - 相似度查询
 43 | 
 44 | 参考：
 45 | - https://radimrehurek.com/gensim/auto_examples/core/run_similarity_queries.html
 46 | - https://radimrehurek.com/gensim/auto_examples/core/run_core_concepts.html
 47 | 
 48 | ### 实验四：云平台词向量数据可视化方法
 49 | 
 50 | 目标：了解在云平台下的词向量数据可视化方法
 51 | 
 52 | 实验内容：
 53 | - 加载/创建word2vec词向量模型，可根据Corpus，自由选择N个目标词，例如 `keys = ['game', 'terrorist', 'farmers', 'mind']`
 54 | - 根据词向量计算相似度，并输出目标词的Top-K相关词
 55 | - 基于t-SNE算法将词向量降维
 56 | - 基于matplotlib将目标词和对应Top-K相关词进行可视化展示
 57 | 
 58 | 提示：
 59 | - `from gensim.test.utils import datapath`，`datapath('word2vec_pre_kv_c')`
 60 | - `from gensim.models import KeyedVectors`，`KeyedVectors.load_word2vec_format`，`most_similar(word, topn=30)`
 61 | - `from sklearn.manifold import TSNE`
 62 | 
 63 | 参考：
 64 | - https://radimrehurek.com/gensim/models/keyedvectors.html
 65 | - https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html
 66 | - https://matplotlib.org/
 67 | 
 68 | 例子：
 69 | 
 70 | <img src="https://github.com/cuishicheng/Big-Data-and-Cloud-Computing/blob/main/main/example4.png" width="600" height="400">
 71 | 
 72 | ### 实验五：Sentiment Analysis of IMDB Movie Reviews 云平台编程实战1
 73 | 
 74 | 目标：基于Kaggle云平台，实现IMDB影评情感分析
 75 | 
 76 | 实验内容：
 77 | - 导入数据集，输出数据集描述，并展示部分数据样本
 78 | - 以8:2方式将数据分为训练集与测试集（注意文本对应的情感标签需一并处理）
 79 | - 文本数据预处理，包括移除stopwords、html等噪声文本
 80 | - 选取合适的自然语言处理模型对文本进行处理，例如BOW模型、TF-IDF模型、word2vec模型等
 81 | 
 82 | 参考：
 83 | - https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
 84 | 
 85 | ### 实验六：Sentiment Analysis of IMDB Movie Reviews 云平台编程实战2
 86 | 
 87 | 目标：基于Kaggle云平台，实现IMDB影评情感分析
 88 | 
 89 | 实验内容：
 90 | - 针对数据集建立预测模型
 91 | - 在训练集上训练模型
 92 | - 在测试集上输出预测结果，其中评价指标包括F1-Score，Accuracy
 93 | - 选做：可视化展示正面/负面评价关键词
 94 | 
 95 | 参考：
 96 | - https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
 97 | 
 98 | 例子：
 99 | 
100 | <img src="https://github.com/cuishicheng/Big-Data-and-Cloud-Computing/blob/main/main/example6-1.png" width="800" height="400">
101 | 
102 | <img src="https://github.com/cuishicheng/Big-Data-and-Cloud-Computing/blob/main/main/example6-2.png" width="800" height="400">
103 | 


--------------------------------------------------------------------------------
/main/example4.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cuishicheng/Big-Data-and-Cloud-Computing/1b1cd9d9c62f2a0786ac681ab28fa47c133e6a76/main/example4.png


--------------------------------------------------------------------------------
/main/example6-1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cuishicheng/Big-Data-and-Cloud-Computing/1b1cd9d9c62f2a0786ac681ab28fa47c133e6a76/main/example6-1.png


--------------------------------------------------------------------------------
/main/example6-2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cuishicheng/Big-Data-and-Cloud-Computing/1b1cd9d9c62f2a0786ac681ab28fa47c133e6a76/main/example6-2.png


--------------------------------------------------------------------------------
/main/test.py:
--------------------------------------------------------------------------------
1 | print('Hello World!')


--------------------------------------------------------------------------------