├── 1.png
├── 2.png
├── 3.png
├── 4.png
├── 5.png
├── 6.png
├── 7.png
├── 8.png
├── 9.png
├── 10.png
├── 11.png
├── 12.png
├── 13.png
├── 14.png
├── 15.png
├── 16.png
├── 17.png
├── 18.png
├── 19.png
├── 20.png
├── 21.png
├── 22.png
├── 23.png
├── 24.png
├── 25.png
├── 26.png
├── ReduceByKeySortRddDemo.scala
├── JedisUtil.java
├── README.md
└── crawler.py


/1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/1.png


--------------------------------------------------------------------------------
/2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/2.png


--------------------------------------------------------------------------------
/3.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/3.png


--------------------------------------------------------------------------------
/4.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/4.png


--------------------------------------------------------------------------------
/5.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/5.png


--------------------------------------------------------------------------------
/6.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/6.png


--------------------------------------------------------------------------------
/7.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/7.png


--------------------------------------------------------------------------------
/8.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/8.png


--------------------------------------------------------------------------------
/9.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/9.png


--------------------------------------------------------------------------------
/10.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/10.png


--------------------------------------------------------------------------------
/11.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/11.png


--------------------------------------------------------------------------------
/12.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/12.png


--------------------------------------------------------------------------------
/13.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/13.png


--------------------------------------------------------------------------------
/14.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/14.png


--------------------------------------------------------------------------------
/15.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/15.png


--------------------------------------------------------------------------------
/16.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/16.png


--------------------------------------------------------------------------------
/17.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/17.png


--------------------------------------------------------------------------------
/18.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/18.png


--------------------------------------------------------------------------------
/19.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/19.png


--------------------------------------------------------------------------------
/20.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/20.png


--------------------------------------------------------------------------------
/21.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/21.png


--------------------------------------------------------------------------------
/22.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/22.png


--------------------------------------------------------------------------------
/23.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/23.png


--------------------------------------------------------------------------------
/24.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/24.png


--------------------------------------------------------------------------------
/25.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/25.png


--------------------------------------------------------------------------------
/26.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/bysj2022NB/hadoop_spark_weibo2024_rec/HEAD/26.png


--------------------------------------------------------------------------------
/ReduceByKeySortRddDemo.scala:
--------------------------------------------------------------------------------
 1 | package com.bigdata.spark.reducebykey_sort
 2 | 
 3 | import org.apache.spark.{SparkConf, SparkContext}
 4 | 
 5 | /**
 6 |  * @program: spark-api-demo
 7 |  * @description: 类作用描述
 8 |  * @author: 小毕
 9 |  * @company: 清华大学深圳研究生院
10 |  * @create: 2019-09-02 18:00
11 |  */
12 | object ReduceByKeySortRddDemo {
13 | 
14 |   def main(args: Array[String]): Unit = {
15 |     val conf=new SparkConf()
16 |       .setAppName("MapFilterApp")
17 |       .setMaster("local")
18 |     val sc=new SparkContext(conf)
19 |     val rdd1=sc.parallelize(List(("tom", 1), ("jerry", 3), ("kitty", 2),  ("shuke", 1)))
20 |     val rdd2=sc.parallelize(List(("jerry", 2), ("tom", 3), ("shuke", 2), ("kitty", 5)))
21 |     val rdd3=rdd1.union(rdd2)
22 |     //按key进行聚合
23 |     val rdd4=rdd3.reduceByKey(_+_)
24 |     rdd4.collect.foreach(println(_))
25 |     //按value的降序排序
26 |     val rdd5=rdd4.map(t=>(t._2,t._1)).sortByKey(false).map(t=>(t._2,t._1))
27 |     rdd5.collect.foreach(println)
28 |   }
29 | 
30 | }
31 | 


--------------------------------------------------------------------------------
/JedisUtil.java:
--------------------------------------------------------------------------------
 1 | package com.bigdata.storm.kafka.util;
 2 | 
 3 | import redis.clients.jedis.Jedis;
 4 | import redis.clients.jedis.JedisPool;
 5 | import redis.clients.jedis.JedisPoolConfig;
 6 | 
 7 | /**
 8 |  * @program: storm-kafka-api-demo
 9 |  * @description: redis工具类
10 |  * @author: 小毕
11 |  * @company: 清华大学深圳研究生院
12 |  * @create: 2019-08-22 17:23
13 |  */
14 | public class JedisUtil {
15 |     
16 |     /*redis连接池*/
17 |     private static JedisPool pool;
18 |     
19 |     /**
20 |     *@Description: 返回redis连接池
21 |     *@Param: 
22 |     *@return: 
23 |     *@Author: 小毕
24 |     *@date: 2019/8/22 0022
25 |     */
26 |     public static JedisPool getPool(){
27 |         if(pool==null){
28 |             //创建jedis连接池配置
29 |             JedisPoolConfig jedisPoolConfig = new JedisPoolConfig();
30 |             //最大连接数
31 |             jedisPoolConfig.setMaxTotal(20);
32 |             //最大空闲连接
33 |             jedisPoolConfig.setMaxIdle(5);
34 |             pool=new JedisPool(jedisPoolConfig,"node03.hadoop.com",6379,3000);
35 |         }
36 |         return pool;
37 |     }
38 | 
39 |     public static Jedis getConnection(){
40 |         return getPool().getResource();
41 |     }
42 | 
43 | /*    public static void main(String[] args) {
44 |         //System.out.println(getPool());
45 |         //System.out.println(getConnection().set("hello","world"));
46 |     }*/
47 | 
48 | 
49 | 
50 | 
51 | 
52 | 
53 |     
54 |     
55 | }


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
  1 | ## 计算机毕业设计吊打导师Python+Spark知识图谱微博舆情预警系统 舆情分析 微博推荐系统 微博可视化 微博数据分析 微博大数据 微博爬虫 微博预测系统 大数据毕业设计 大数据毕业设计 机器学习 机器学习 深度学习 人工智能
  2 | 
  3 | ## 要求
  4 | ### 源码有偿！一套(论文 PPT 源码+sql脚本+教程)
  5 | 
  6 | 简易
  7 | 
  8 | https://www.bilibili.com/video/BV1xN41127XN/?spm_id_from=333.999.0.0
  9 | 
 10 | 详细
 11 | 
 12 | https://www.bilibili.com/video/BV1tN41127YH/?spm_id_from=333.999.0.0
 13 | 
 14 | ### 
 15 | ### 加好友前帮忙start一下，并备注github有偿微博图谱
 16 | ### 我的QQ号是2827724252或者798059319或者 1679232425或者微信:bysj2023nb
 17 | 
 18 | # 
 19 | 
 20 | ### 加qq好友说明（被部分 网友整得心力交瘁）：
 21 |     1.加好友务必按照格式备注
 22 |     2.避免浪费各自的时间！
 23 |     3.当“客服”不容易，repo 主是体面人，不爆粗，性格好，文明人。
 24 | 
 25 | 
 26 | 
 27 | 适合地狱级难度，从头到尾吊打导师！
 28 | 
 29 | 干死中国这帮杂种导师！完全弱智张口喷来喷去！吃屎东西！什么鸡巴技术不会就会用嘴写代码！可操死他妈把！那就用我的项目摩擦吊打他！
 30 | 
 31 | # 开发技术
 32 | 前端：vue.js element-ui
 33 | 
 34 | 后端：springboot mybatis
 35 | 
 36 | 中间件：spark hadoop hive flink
 37 | 
 38 | 数据库：mysql关系型数据库 neo4j图数据库
 39 | 
 40 | 算法：协同过滤推荐算法 SVD MLP lstm情感分析
 41 | 
 42 | 第三方接口：百度AI 阿里云平台
 43 | 
 44 | 数据采集：Python爬虫
 45 | 
 46 | # 特色/创新点
 47 | 4种推荐算法
 48 | 
 49 | 数据可视化大屏
 50 | 
 51 | 预警预测功能
 52 | 
 53 | 爬虫
 54 | 
 55 | 深度学习情感分析
 56 | 
 57 | 短信验证码修改密码
 58 | 
 59 | AI识别身份证认证
 60 | 
 61 | 
 62 | 
 63 | 
 64 | 
 65 | 
 66 | # 运行截图
 67 | 
 68 | ![](1.png)
 69 | 
 70 | 
 71 | ![2](2.png)
 72 | 
 73 | 
 74 | ![3](3.png)
 75 | 
 76 | 
 77 | 
 78 | ![4](4.png)
 79 | 
 80 | 
 81 | 
 82 | ![5](5.png)
 83 | 
 84 | ![6](6.png)
 85 | 
 86 | ![7](7.png)
 87 | 
 88 | ![8](8.png)
 89 | 
 90 | ![9](9.png)
 91 | 
 92 | ![10](10.png)
 93 | 
 94 | ![11](11.png)
 95 | 
 96 | ![12](12.png)
 97 | 
 98 | ![13](13.png)
 99 | 
100 | ![14](14.png)
101 | 
102 | ![15](15.png)
103 | 
104 | ![16](16.png)
105 | 
106 | ![17](17.png)
107 | 
108 | ![18](18.png)
109 | 
110 | ![19](19.png)
111 | 
112 | ![20](20.png)
113 | 
114 | ![21](21.png)
115 | 
116 | ![22](22.png)
117 | 
118 | ![23](23.png)
119 | 
120 | ![24](24.png)
121 | ![24](25.png)
122 | ![24](26.png)
123 | 
124 | 
125 | 
126 | 
127 | 
128 | 
129 | 
130 | 
131 | 
132 | 
133 | 
134 | 
135 | 
136 | 
137 | 
138 | 
139 | 
140 | 
141 | 
142 | 
143 | 
144 | # 运行视频(B站)
145 | 
146 | 简易
147 | 
148 | https://www.bilibili.com/video/BV1xN41127XN/?spm_id_from=333.999.0.0
149 | 
150 | 详细
151 | 
152 | https://www.bilibili.com/video/BV1tN41127YH/?spm_id_from=333.999.0.0
153 | 
154 | 
155 | 


--------------------------------------------------------------------------------
/crawler.py:
--------------------------------------------------------------------------------
  1 | # coding=utf-8
  2 | from bs4 import BeautifulSoup
  3 | import requests
  4 | import sys
  5 | import random
  6 | import pymysql
  7 | links = []
  8 | datas = []
  9 | hea = {
 10 |     'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'
 11 | }
 12 | urls =[
 13 |     "https://www.chinanews.com/china.shtml", #国内
 14 |     "https://www.chinanews.com/society.shtml", #社会
 15 |     "https://www.chinanews.com/compatriot.shtml",#港澳
 16 |     "https://www.chinanews.com/wenhua.shtml",#文化
 17 |     "https://www.chinanews.com/world.shtml",#国际
 18 |     "https://www.chinanews.com/cj/gd.shtml",#财经
 19 |     "https://www.chinanews.com/sports.shtml",#体育
 20 |     "https://www.chinanews.com/huaren.shtml"  #华人
 21 | ]
 22 | # 打开数据库连接
 23 | db = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3396, db='news_recommendation_system')
 24 | # 使用cursor()方法获取操作游标
 25 | cursor = db.cursor()
 26 | 
 27 | def main():
 28 |     #reload(sys)
 29 |     #sys.setdefaultencoding("utf-8")
 30 |     #baseurl = 'https://www.chinanews.com/taiwan.shtml'  # 要爬取的网页链接
 31 |     baseurl = 'https://www.chinanews.com/taiwan.shtml'  # 要爬取的网页链接
 32 |     # deleteDate()
 33 |     # 1.爬取主网页获取各个链接
 34 |     getLink(baseurl)
 35 |     # 2.根据链接爬取内部信息并且保存数据到数据库
 36 |     getInformationAndSave()
 37 |     # 3.关闭数据库
 38 |     db.close()
 39 | 
 40 | def getInformationAndSave():
 41 |     for link in links:
 42 |         data = []
 43 |         url = "https://www.chinanews.com" + link[1]
 44 |         cur_html = requests.get(url, headers=hea)
 45 |         cur_html.encoding = "utf8"
 46 |         soup = BeautifulSoup(cur_html.text, 'html.parser')
 47 |         # 获取时间
 48 |         title = soup.find('h1')
 49 |         title = title.text.strip()
 50 |         # 获取时间和来源
 51 |         tr = soup.find('div', class_='left-t').text.split()
 52 |         time = tr[0] + tr[1]
 53 |         recourse = tr[2]
 54 |         # 获取内容
 55 |         cont = soup.find('div', class_="left_zw")
 56 |         content = cont.text.strip()
 57 |         print(link[0] + "---" + title + "---" + time + "---" + recourse + "---" + url)
 58 |         saveDate(title,content,time,recourse,url)
 59 | 
 60 | def deleteDate():
 61 |     sql = "DELETE FROM news "
 62 |     try:
 63 |         # 执行SQL语句
 64 |         cursor.execute(sql)
 65 |         # 提交修改
 66 |         db.commit()
 67 |     except:
 68 |         # 发生错误时回滚
 69 |         db.rollback()
 70 | 
 71 | def saveDate(title,content,time,recourse,url):
 72 |     try:
 73 |         cursor.execute("INSERT INTO news(news_title, news_content, type_id, news_creatTime, news_recourse,news_link) VALUES ('%s', '%s', '%s', '%s', '%s' ,'%s')" % \
 74 |           (title, content, random.randint(1,8), time, recourse,url))
 75 |         db.commit()
 76 |         print("执行成功")
 77 |     except:
 78 |         db.rollback()
 79 |         print("执行失败")
 80 | 
 81 | def getLink(baseurl):
 82 |     html = requests.get(baseurl, headers=hea)
 83 |     html.encoding = 'utf8'
 84 |     soup = BeautifulSoup(html.text, 'html.parser')
 85 |     for item in soup.select('div.content_list > ul > li'):
 86 |         # 对不符合的数据进行清洗
 87 |         if (item.a == None):
 88 |             continue
 89 |         data = []
 90 |         type = item.div.text[1:3]  # 类型
 91 |         link = item.div.next_sibling.next_sibling.a['href']
 92 |         data.append(type)
 93 |         data.append(link)
 94 |         links.append(data)
 95 | 
 96 | if __name__ == '__main__':
 97 |     main()
 98 | 
 99 | 
100 | 


--------------------------------------------------------------------------------