├── FunctionTestResult.md
├── KafkaTuning.md
├── PerformanceTestResult.md
├── README.md
├── bin
    ├── dataImportKafkaPerformance.sh
    ├── pef.sh
    ├── sparkstreamingkafkaperformance.sh
    └── structuredStreamingkafkaperformance.sh
├── build.sbt
├── configFile
    └── ignite-template.xml
├── pom.xml
├── smokeData
    └── imputData.md
└── src
    ├── assembly
        └── bin.xml
    └── main
        ├── java
            └── mycallback.java
        └── scala
            ├── common
                ├── Args.scala
                ├── KafkaSink.scala
                ├── eventRow.scala
                ├── igniteWriter.scala
                ├── kryoSerializer.scala
                └── mycallback.scala
            ├── objectProject
                ├── dataImportKafkaPerformance.scala
                ├── streamingKafkaToIgnitePerformance.scala
                └── structuredStreamingKafkaToIgnitePerformance.scala
            └── textProject
                ├── dataImportKafkaPerformance.scala
                ├── streamingKafkaToIgnitePerformance.scala
                └── structuredStreamingKafkaToIgnitePerformance.scala


/FunctionTestResult.md:
--------------------------------------------------------------------------------
  1 | # 数据导入
  2 | 
  3 | ## 环境准备
  4 | 
  5 | hive表：
  6 | 
  7 |             > show create table mm;
  8 |         OK
  9 |         CREATE TABLE `mm`(
 10 |           `jioyrq` string, 
 11 |           `jioysj` string, 
 12 |           `guiyls` string, 
 13 |           `cpznxh` string, 
 14 |           `jiaoym` string, 
 15 |           `jiedbz` string, 
 16 |           `jio1je` string, 
 17 |           `kemucc` string, 
 18 |           `kehuzh` string, 
 19 |           `kehhao` string, 
 20 |           `zhyodm` string, 
 21 |           `hmjsjc` string, 
 22 |           `huobdh` string)
 23 |         ROW FORMAT SERDE 
 24 |           'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
 25 |         WITH SERDEPROPERTIES ( 
 26 |           'field.delim'=',', 
 27 |           'serialization.encoding'='GBK') 
 28 |         STORED AS INPUTFORMAT 
 29 |           'org.apache.hadoop.mapred.TextInputFormat' 
 30 |         OUTPUTFORMAT 
 31 |           'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
 32 |         LOCATION
 33 |           'hdfs://namenode1:8020/user/hive/warehouse/mm'
 34 |         TBLPROPERTIES (
 35 |           'COLUMN_STATS_ACCURATE'='false', 
 36 |           'last_modified_by'='root', 
 37 |           'last_modified_time'='1521495928', 
 38 |           'numFiles'='1', 
 39 |           'numRows'='-1', 
 40 |           'rawDataSize'='-1', 
 41 |           'totalSize'='1010', 
 42 |           'transient_lastDdlTime'='1521495928')
 43 |         Time taken: 0.198 seconds, Fetched: 34 row(s)
 44 | 
 45 | topic：
 46 | 
 47 |     kafka-topics --describe --topic yc --zookeeper datanode1
 48 | 
 49 |     Topic:yc	PartitionCount:3	ReplicationFactor:1	Configs:
 50 |     	Topic: yc	Partition: 0	Leader: 133	Replicas: 133	Isr: 133
 51 |     	Topic: yc	Partition: 1	Leader: 131	Replicas: 131	Isr: 131
 52 |     	Topic: yc	Partition: 2	Leader: 132	Replicas: 132	Isr: 132
 53 | 
 54 | ## 执行命令：
 55 | 
 56 | 这里简单的测试就不指定资源了，生产环境一定要指定
 57 | 
 58 |     spark2-submit \
 59 |         --class textProject.dataImportKafkaPerformance \
 60 |         --master yarn \
 61 |         --deploy-mode client \
 62 |         ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
 63 |         -cachename yc \
 64 |         -igniteconfxml /opt/ignite/ignite-config-client.xml \
 65 |         -brokers datanode1:9092 \
 66 |         -partitionNum 3 \
 67 |         -groupid yc \
 68 |         -hiveTableName default.mm \
 69 |         -topic yc \
 70 |         -appName kafkainput
 71 | 
 72 | 
 73 | ## hive表中数据及表结构：
 74 | 
 75 |     hive> select * from mm;
 76 |     OK
 77 |     20180201	115655	200000010000001	5	7983	1	10000.00 	S	62259910005001	11000001	其他代码	11/10/2018	01
 78 |     20180201	115656	200000010000002	5	7983	1	10000.00 	S	62259910005002	11000002	其他代码	11/11/2018	02
 79 |     20180201	115657	200000010000003	5	7983	1	10000.00 	S	62259910005003	11000003	其他代码	11/12/2018	03
 80 |     20180201	115658	200000010000004	5	7983	1	10000.00 	S	62259910005004	11000001	其他代码	11/13/2018	04
 81 |     20180201	115659	200000010000005	5	7983	1	10000.00 	S	62259910005005	11000002	其他代码	11/14/2018	05
 82 |     20180201	115660	200000010000006	5	7983	1	10000.00 	S	62259910005006	11000003	其他代码	11/15/2018	06
 83 |     20180201	115661	200000010000007	5	7983	1	10000.00 	S	62259910005007	11000001	其他代码	11/16/2018	07
 84 |     20180201	115662	200000010000008	5	7983	1	10000.00 	S	62259910005008	11000002	其他代码	11/17/2018	08
 85 |     20180201	115663	200000010000009	5	7983	1	10000.00 	S	62259910005009	11000003	其他代码	11/18/2018	09
 86 |     Time taken: 1.571 seconds, Fetched: 9 row(s)
 87 | 
 88 | ## 执行结果：
 89 | 
 90 | kafka-console-consumer --topic yc --bootstrap-server datanode1:9092 --partition 0
 91 | 
 92 |     18/03/20 08:25:48 INFO utils.AppInfoParser: Kafka version : 0.10.2-kafka-2.2.0
 93 |     18/03/20 08:25:48 INFO utils.AppInfoParser: Kafka commitId : unknown
 94 |     utils.eventRow(20180201,115655,200000010000001,5,7983,1,10000.00 ,S,62259910005001,11000001,其他代码,11/10/2018,01)
 95 |     utils.eventRow(20180201,115658,200000010000004,5,7983,1,10000.00 ,S,62259910005004,11000001,其他代码,11/13/2018,04)
 96 |     utils.eventRow(20180201,115661,200000010000007,5,7983,1,10000.00 ,S,62259910005007,11000001,其他代码,11/16/2018,07)
 97 |     
 98 | kafka-console-consumer --topic yc --bootstrap-server datanode1:9092 --partition 1
 99 | 
100 |     18/03/20 08:25:54 INFO utils.AppInfoParser: Kafka version : 0.10.2-kafka-2.2.0
101 |     18/03/20 08:25:54 INFO utils.AppInfoParser: Kafka commitId : unknown
102 |     utils.eventRow(20180201,115656,200000010000002,5,7983,1,10000.00 ,S,62259910005002,11000002,其他代码,11/11/2018,02)
103 |     utils.eventRow(20180201,115659,200000010000005,5,7983,1,10000.00 ,S,62259910005005,11000002,其他代码,11/14/2018,05)
104 |     utils.eventRow(20180201,115662,200000010000008,5,7983,1,10000.00 ,S,62259910005008,11000002,其他代码,11/17/2018,08)
105 | 
106 | kafka-console-consumer --topic yc --bootstrap-server datanode1:9092 --partition 2
107 | 
108 |     18/03/20 08:25:59 INFO utils.AppInfoParser: Kafka version : 0.10.2-kafka-2.2.0
109 |     18/03/20 08:25:59 INFO utils.AppInfoParser: Kafka commitId : unknown
110 |     utils.eventRow(20180201,115657,200000010000003,5,7983,1,10000.00 ,S,62259910005003,11000003,其他代码,11/12/2018,03)
111 |     utils.eventRow(20180201,115660,200000010000006,5,7983,1,10000.00 ,S,62259910005006,11000003,其他代码,11/15/2018,06)
112 |     utils.eventRow(20180201,115663,200000010000009,5,7983,1,10000.00 ,S,62259910005009,11000003,其他代码,11/18/2018,09)
113 | 
114 | 
115 | # 流式计算
116 | 
117 | ## 执行命令
118 | 
119 |     spark2-submit \
120 |     --class textProject.streamingKafkaToIgnitePerformance \
121 |     --master yarn \
122 |     --deploy-mode client \
123 |     ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
124 |     -cachename yc \
125 |     -igniteconfxml /opt/ignite/config/default-config.xml \
126 |     -brokers datanode1:9092 \
127 |     -partitionNum 3 \
128 |     -groupid yc \
129 |     -hiveTableName default.mm \
130 |     -topic yc \
131 |     -appName streamingToIgnite
132 | 
133 | 
134 | ## ignite写入结果
135 | 
136 |     注意：这里只显示出了部分列，应该是ignite的问题，可以直接指定列区查询，就能显示所有
137 | 
138 |     0: jdbc:ignite:thin://datanode2/> select * from yc;
139 |     +--------------------------------+--------------------------------+--------------------------------+--------------------------------+--------------------------------+--------------------------------+---------+
140 |     |             JIOYRQ             |             JIOYSJ             |             GUIYLS             |             CPZNXH             |             JIAOYM             |             JIEDBZ             |         |
141 |     +--------------------------------+--------------------------------+--------------------------------+--------------------------------+--------------------------------+--------------------------------+---------+
142 |     | 20180201                       | 115655                         | 200000010000001                | 1                              | 7983                           | 1                              | 10000.0 |
143 |     | 20180201                       | 115662                         | 200000010000008                | 1                              | 7983                           | 1                              | 10000.0 |
144 |     | 20180201                       | 115661                         | 200000010000007                | 1                              | 7983                           | 1                              | 10000.0 |
145 |     | 20180201                       | 115660                         | 200000010000006                | 1                              | 7983                           | 1                              | 10000.0 |
146 |     | 20180201                       | 115658                         | 200000010000004                | 1                              | 7983                           | 1                              | 10000.0 |
147 |     | 20180201                       | 115657                         | 200000010000003                | 1                              | 7983                           | 1                              | 10000.0 |
148 |     | 20180201                       | 115656                         | 200000010000002                | 1                              | 7983                           | 1                              | 10000.0 |
149 |     | 20180201                       | 115663                         | 200000010000009                | 1                              | 7983                           | 1                              | 10000.0 |
150 |     | 20180201                       | 115659                         | 200000010000005                | 1                              | 7983                           | 1                              | 10000.0 |
151 |     +--------------------------------+--------------------------------+--------------------------------+--------------------------------+--------------------------------+--------------------------------+---------+
152 | 
153 | 
154 | 
155 | 
156 | 
157 | 
158 | 
159 | 
160 | 
161 | 
162 | 
163 | 
164 | 
165 | 
166 | 
167 | 
168 | 
169 | 
170 | 
171 | 


--------------------------------------------------------------------------------
/KafkaTuning.md:
--------------------------------------------------------------------------------
  1 | # producer tuning
  2 | 
  3 | Most important configurations which needs to be taken care at Producer side are：
  4 | 
  5 | **1. Compression**
  6 | 
  7 | **2. Batch size**
  8 | 
  9 | **3. Sync or Async**
 10 | 
 11 | 主要是如下参数：
 12 |     
 13 |     batch.size： 基于大小的batching策略
 14 |     linger.ms： 基于时间的batching策略
 15 |     compression.type：压缩的速度上lz4=snappy<gzip。
 16 |     max.in.flight.requests.per.connection (affects ordering，设置为1可以保证有序性，但是发送性能会受影响。不为1的时候，如果发生消息重发则会乱序)
 17 |     acks (affects durability)
 18 | 
 19 | 通常为了保证有序和消息不丢会设置： 
 20 | 
 21 |     max.in.flight.requests.per.connection=1
 22 |     acks=all
 23 | 
 24 | # kafka tuning
 25 | 
 26 | ## 参考linkedin的生产配置
 27 | 
 28 |       # Replication configurations
 29 |       num.replica.fetchers=4
 30 |       replica.fetch.max.bytes=1048576
 31 |       replica.fetch.wait.max.ms=500
 32 |       replica.high.watermark.checkpoint.interval.ms=5000
 33 |       replica.socket.timeout.ms=30000
 34 |       replica.socket.receive.buffer.bytes=65536
 35 |       replica.lag.time.max.ms=10000
 36 |     
 37 |       controller.socket.timeout.ms=30000
 38 |       controller.message.queue.size=10
 39 |     
 40 |       # Log configuration
 41 |       num.partitions=8
 42 |       message.max.bytes=1000000
 43 |       auto.create.topics.enable=true
 44 |       log.index.interval.bytes=4096
 45 |       log.index.size.max.bytes=10485760
 46 |       log.retention.hours=168
 47 |       log.flush.interval.ms=10000
 48 |       log.flush.interval.messages=20000
 49 |       log.flush.scheduler.interval.ms=2000
 50 |       log.roll.hours=168
 51 |       log.retention.check.interval.ms=300000
 52 |       log.segment.bytes=1073741824
 53 |     
 54 |       # ZK configuration
 55 |       zookeeper.connection.timeout.ms=6000
 56 |       zookeeper.sync.time.ms=2000
 57 |     
 58 |       # Socket server configuration
 59 |       num.io.threads=8
 60 |       num.network.threads=8
 61 |       socket.request.max.bytes=104857600
 62 |       socket.receive.buffer.bytes=1048576
 63 |       socket.send.buffer.bytes=1048576
 64 |       queued.max.requests=16
 65 |       fetch.purgatory.purge.interval.requests=100
 66 |       producer.purgatory.purge.interval.requests=100
 67 | 
 68 | ## JVM的优化
 69 | 
 70 |     调整KAFKA_HEAP_OPTS="-Xmx16G -Xms16G”的值
 71 |     
 72 | ## 网络和ios操作线程配置优化：
 73 | 
 74 |     # broker处理消息的最大线程数
 75 |     num.network.threads=9
 76 |     # broker处理磁盘IO的线程数
 77 |     num.io.threads=16
 78 | 
 79 | 推荐配置：
 80 | 
 81 | num.network.threads主要处理网络io，读写缓冲区数据，基本没有io等待，配置线程数量为cpu核数加1。
 82 | 
 83 | num.io.threads主要进行磁盘io操作，高峰期可能有些io等待，因此配置需要大些。配置线程数量为cpu核数2倍，最大不超过3倍。
 84 | 
 85 | ## socket server可接受数据大小(防止OOM异常)：
 86 | 
 87 |     socket.request.max.bytes=2147483600
 88 | 
 89 | 推荐配置：
 90 | 
 91 | 根据自己业务数据包的大小适当调大。这里取值是int类型的，而受限于java int类型的取值范围又不能太大：
 92 | 
 93 | java int的取值范围为（-2147483648~2147483647），占用4个字节（-2的31次方到2的31次方-1，不能超出，超出之后报错：org.apache.kafka.common.config.ConfigException: Invalid value 8589934592 for configuration socket.request.max.bytes: Not a number of type INT。
 94 | 
 95 | 
 96 | ## log数据文件刷盘策略
 97 | 	
 98 |     # 每当producer写入10000条消息时，刷数据到磁盘
 99 |     log.flush.interval.messages=10000
100 |     # 每间隔1秒钟时间，刷数据到磁盘
101 |     log.flush.interval.ms=1000
102 | 
103 | 推荐配置：
104 | 
105 | 为了大幅度提高producer写入吞吐量，需要定期批量写文件。一般无需改动，如果topic的数据量较小可以考虑减少log.flush.interval.ms和log.flush.interval.messages来强制刷写数据，减少可能由于缓存数据未写盘带来的不一致。推荐配置分别message 10000，间隔1s。
106 | 
107 | ## 日志保留策略配置
108 | 	
109 |     # 日志保留时长
110 |     log.retention.hours=72
111 |     # 段文件配置
112 |     log.segment.bytes=1073741824
113 | 
114 | 推荐配置：
115 | 
116 | 日志建议保留三天，也可以更短；段文件配置1GB，有利于快速回收磁盘空间，重启kafka加载也会加快（kafka启动时是单线程扫描目录(log.dir)下所有数据文件）。如果文件过小，则文件数量比较多。
117 | 
118 | 
119 | ## replica复制配置
120 | 
121 |     num.replica.fetchers=3
122 |     replica.fetch.min.bytes=1
123 |     replica.fetch.max.bytes=5242880
124 | 
125 | 推荐配置：
126 | 
127 | 每个follow从leader拉取消息进行同步数据，follow同步性能由这几个参数决定，分别为:
128 | 
129 | 拉取线程数(num.replica.fetchers):fetcher配置多可以提高follower的I/O并发度，单位时间内leader持有更多请求，相应负载会增大，需要根据机器硬件资源做权衡，建议适当调大；
130 | 
131 | 最小字节数(replica.fetch.min.bytes):一般无需更改，默认值即可；
132 | 
133 | 最大字节数(replica.fetch.max.bytes)：默认为1MB，这个值太小，推荐5M，根据业务情况调整
134 | 
135 | 最大等待时间(replica.fetch.wait.max.ms):follow拉取频率，频率过高，leader会积压大量无效请求情况，无法进行数据同步，导致cpu飙升。配置时谨慎使用，建议默认值，无需配置。
136 | 
137 | 
138 | # comsumer tuning
139 | 
140 | The most important consumer configuration is the fetch size.
141 | 
142 |     每次请求，kafka返回的最小的数据量。如果数据量不够，这个请求会等待，直到数据量到达最小指标时，才会返回给消费者。如果设置大于1，会提高kafka的吞吐量，但是会有额外的等待期的代价。
143 |     max.partition.fetch.bytes
144 |     
145 |     fetch.max.bytes
146 |     send.buffer.bytes
147 | 
148 | 


--------------------------------------------------------------------------------
/PerformanceTestResult.md:
--------------------------------------------------------------------------------
  1 | # 数据导入kafka的性能测试
  2 | 
  3 | 数据集：331.3G
  4 | 
  5 | 数据行数： 
  6 | 
  7 | ## 1，正常运行，采用默认参数
  8 | 
  9 |     spark2-submit \
 10 |     --executor-memory 8G --executor-cores 4 --num-executors 10 \
 11 |     --class textProject.dataImportKafkaPerformance \
 12 |     --master yarn \
 13 |     --deploy-mode client \
 14 |     ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
 15 |     -cachename yc \
 16 |     -igniteconfxml /opt/ignite/ignite-config-client.xml \
 17 |     -brokers datanode1:9092 \
 18 |     -partitionNum 44 \
 19 |     -groupid yc \
 20 |     -hiveTableName default.mm \
 21 |     -topic yc \
 22 |     -appName kafkainput
 23 |     
 24 | |类别|值|
 25 | |:---|:---|
 26 | |总时间|10.7分钟   |
 27 | 
 28 | ## 2，增加参数并发以及executor优化
 29 | 
 30 |     spark2-submit \
 31 |     --executor-memory 8G --executor-cores 4 --num-executors 10 \
 32 |     --conf spark.default.parallelism=80 \
 33 |     --conf spark.storage.memoryFraction=0.5 \
 34 |     --conf spark.shuffle.memoryFraction=0.3 \
 35 |     --class textProject.dataImportKafkaPerformance \
 36 |     --master yarn \
 37 |     --deploy-mode client \
 38 |     ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
 39 |     -cachename yc \
 40 |     -igniteconfxml /opt/ignite/ignite-config-client.xml \
 41 |     -brokers datanode1:9092 \
 42 |     -partitionNum 44 \
 43 |     -groupid yc \
 44 |     -hiveTableName default.mm \
 45 |     -topic yc \
 46 |     -appName kafkainput
 47 | 
 48 | |类别|值|
 49 | |:---|:---|
 50 | |总时间|10.1分钟   |
 51 | 
 52 | 
 53 | ## 3，减少参数，优化executor的数量
 54 | 
 55 |     spark2-submit \
 56 |     --executor-memory 8G --executor-cores 4 --num-executors 30 \
 57 |     --conf spark.default.parallelism=240 \
 58 |     --class textProject.dataImportKafkaPerformance \
 59 |     --master yarn \
 60 |     --deploy-mode client \
 61 |     ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
 62 |     -cachename yc \
 63 |     -igniteconfxml /opt/ignite/ignite-config-client.xml \
 64 |     -brokers datanode1:9092 \
 65 |     -partitionNum 44 \
 66 |     -groupid yc \
 67 |     -hiveTableName default.mm \
 68 |     -topic yc \
 69 |     -appName kafkainput
 70 | 
 71 | |类别|值|
 72 | |:---|:---|
 73 | |总时间|9.8分钟   |
 74 | 
 75 | 
 76 | ## 4.增加GC的优化
 77 | 
 78 |     spark2-submit \
 79 |     --executor-memory 8G --executor-cores 4 --num-executors 30 \
 80 |     --conf spark.default.parallelism=360 \
 81 |     --conf spark.executor.extraJavaOptions="-XX:MaxGCPauseMillis=100 -XX:ParallelGCThreads=8 -XX:ConcGCThreads=2 -XX:+UseG1GC "
 82 |     --class textProject.dataImportKafkaPerformance \
 83 |     --master yarn \
 84 |     --deploy-mode client \
 85 |     ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
 86 |     -cachename yc \
 87 |     -igniteconfxml /opt/ignite/ignite-config-client.xml \
 88 |     -brokers datanode1:9092 \
 89 |     -partitionNum 44 \
 90 |     -groupid yc \
 91 |     -hiveTableName default.mm \
 92 |     -topic yc \
 93 |     -appName kafkainput
 94 | 
 95 | |类别|值|
 96 | |:---|:---|
 97 | |总时间|10.2分钟   |
 98 | 
 99 | 参数要合理，参数不合理反而影响性能
100 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # 代码结构
 2 | 
 3 | 1. textProject 写入kafka是一行数据，写入ignite的也是一行数据，此场景把ignite当初分布式内存数据库使用
 4 | 
 5 | 2. objectProject 写入kafka是一个对象，写入ignite的也是一个对象，此场景把ignite当作Key-Value分布式存储系统使用，目前生产环境采用的是这种方式
 6 | 
 7 | # 需求
 8 | 
 9 | 1. 往kafka高性能生产数据，总结producer的优化
10 | 
11 | 2. 总结kafka brokers的优化，从存储/复制线程等方面
12 | 
13 | 3. spark streaming多线程高性能消费kafka数据，总结消费优化以及spark streaming优化
14 | 
15 | 4. structured streaming多线程高性能消费kafka数据，和上面比较性能，还未测试
16 | 
17 | # 数据集
18 | 
19 | 银行交易数据，300G
20 | 
21 | # 性能测试环境
22 | 
23 | 6台计算节点，200 cores，800G memory
24 | 
25 | # kafka参数调优
26 | 
27 | [KafkaTuning.md](./KafkaTuning.md)
28 | 
29 | # spark参数调优
30 | 
31 | [spark参数调优](./bin/pef.sh)
32 | 
33 | # 功能测试结果
34 | 
35 | [FunctionTestResult](./FunctionTestResult.md)
36 | 
37 | # 性能测试结果
38 | 
39 | [PerformanceTestResult](./PerformanceTestResult.md)
40 | 
41 | 
42 | 问题：平均写入tps只能达到1万左右，而且写入数据量越多越慢，初步分析是三个联合主键导致，将主键改为单个主键的情况，关闭事务，tps可以达到6万左右
43 | 
44 | 
45 | 
46 | 
47 | 
48 | 
49 | 
50 | 
51 | 
52 | 
53 | 
54 | 
55 | 
56 | 
57 | 


--------------------------------------------------------------------------------
/bin/dataImportKafkaPerformance.sh:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env bash
 2 | spark2-submit \
 3 | --class dataImportKafkaPerformance \
 4 | --master yarn \
 5 | --deploy-mode client \
 6 | ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
 7 | -cachename yc \
 8 | -igniteconfxml /opt/ignite/ignite-config-client.xml \
 9 | -brokers datanode1:9092 \
10 | -partitionNum 44 \
11 | -groupid yc \
12 | -hiveTableName default.mm \
13 | -topic yc \
14 | -appName kafkainput


--------------------------------------------------------------------------------
/bin/pef.sh:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env bash
 2 | 
 3 | ## 1，正常运行，采用默认参数
 4 | 
 5 |     spark2-submit \
 6 |     --executor-memory 8G --executor-cores 4 --num-executors 10 \
 7 |     --class dataImportKafkaPerformance \
 8 |     --master yarn \
 9 |     --deploy-mode client \
10 |     ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
11 |     -cachename yc \
12 |     -igniteconfxml /opt/ignite/ignite-config-client.xml \
13 |     -brokers datanode1:9092 \
14 |     -partitionNum 3 \
15 |     -groupid yc \
16 |     -hiveTableName default.mm \
17 |     -topic yc \
18 |     -appName kafkainput
19 | 
20 | 
21 | ## 2，增加参数并发以及executor优化
22 | 
23 |     spark2-submit \
24 |     --executor-memory 8G --executor-cores 4 --num-executors 10 \
25 |     --conf spark.default.parallelism=1000 \
26 |     --conf spark.storage.memoryFraction=0.5 \
27 |     --conf spark.shuffle.memoryFraction=0.3 \
28 |     --class dataImportKafkaPerformance \
29 |     --master yarn \
30 |     --deploy-mode client \
31 |     ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
32 |     -cachename yc \
33 |     -igniteconfxml /opt/ignite/ignite-config-client.xml \
34 |     -brokers datanode1:9092 \
35 |     -partitionNum 3 \
36 |     -groupid yc \
37 |     -hiveTableName default.mm \
38 |     -topic yc \
39 |     -appName kafkainput
40 | 
41 | ## 3.增加GC的优化
42 | 
43 |     spark2-submit \
44 |     --executor-memory 8G --executor-cores 4 --num-executors 10 \
45 |     --conf spark.default.parallelism=1000 \
46 |     --conf spark.storage.memoryFraction=0.4 \
47 |     --conf spark.shuffle.memoryFraction=0.2 \
48 |     --conf spark.executor.extraJavaOptions="-XX:MaxGCPauseMillis=100 -XX:ParallelGCThreads=8 -XX:ConcGCThreads=2 -XX:+UseG1GC "
49 |     --class dataImportKafkaPerformance \
50 |     --master yarn \
51 |     --deploy-mode client \
52 |     ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
53 |     -cachename yc \
54 |     -igniteconfxml /opt/ignite/ignite-config-client.xml \
55 |     -brokers datanode1:9092 \
56 |     -partitionNum 3 \
57 |     -groupid yc \
58 |     -hiveTableName default.mm \
59 |     -topic yc \
60 |     -appName kafkainput
61 | 


--------------------------------------------------------------------------------
/bin/sparkstreamingkafkaperformance.sh:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env bash
 2 | spark2-submit \
 3 | --class streamingKafkaToIgnitePerformance \
 4 | --master yarn \
 5 | --deploy-mode client \
 6 | ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
 7 | -cachename yc \
 8 | -igniteconfxml /opt/ignite/config/default-config.xml \
 9 | -brokers datanode1:9092 \
10 | -partitionNum 44 \
11 | -groupid yc \
12 | -hiveTableName default.mm \
13 | -topic yc \
14 | -appName streamingToIgnite
15 | 


--------------------------------------------------------------------------------
/bin/structuredStreamingkafkaperformance.sh:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env bash
 2 | spark2-submit \
 3 | --class structuredStreamingKafkaToIgnitePerformance \
 4 | --master yarn \
 5 | --deploy-mode client \
 6 | ./sparkstreamingkafkaperformance-1.0-SNAPSHOT.jar \
 7 | -cachename yc \
 8 | -igniteconfxml /opt/ignite/config/default-config.xml \
 9 | -brokers datanode1:9092 \
10 | -partitionNum 44 \
11 | -groupid yc \
12 | -hiveTableName default.mm \
13 | -topic yc \
14 | -appName streamingToIgnite
15 | 


--------------------------------------------------------------------------------
/build.sbt:
--------------------------------------------------------------------------------
 1 | name := "sparkStreamingKafkaPerformance"
 2 | 
 3 | version := "0.1"
 4 | 
 5 | scalaVersion := "2.11.11"
 6 | 
 7 | javacOptions++=Seq("-source","1.8","-target","1.8")
 8 | 
 9 | val kafkaVersion = "0.10.1.0"
10 | val sparkVersion = "2.2.1"
11 | val kuduVersion = "1.4.0"
12 | val igniteVersion = "2.4.0"
13 | 
14 | 
15 | libraryDependencies ++= Seq(
16 |   "junit" % "junit" % "4.12" % "test",
17 |   "com.novocode" % "junit-interface" % "0.11" % "test",
18 |   "org.apache.spark" %% "spark-core" % sparkVersion % "provided",
19 |   "org.apache.spark" % "spark-sql_2.11" % sparkVersion % "provided",
20 |   "org.apache.spark" %% "spark-streaming" % sparkVersion % "provided",
21 |   "org.apache.kudu" % "kudu-client" % kuduVersion,
22 |   "org.apache.kudu" %% "kudu-spark2" % kuduVersion,
23 |   "org.apache.kafka" %% "kafka" % kafkaVersion,
24 |   "com.beust" % "jcommander" % "1.72",
25 |   "mysql" % "mysql-connector-java" % "5.1.38",
26 |   "org.apache.ignite" %% "ignite-spark" % igniteVersion,
27 |   "org.apache.ignite" %% "ignite-core" % igniteVersion,
28 |   "org.apache.spark" %% "spark-streaming-kafka-0-10" % sparkVersion
29 | )
30 | 
31 | 
32 | aggregate in update := true
33 | updateOptions := updateOptions.in(Global).value.withCachedResolution(true)


--------------------------------------------------------------------------------
/configFile/ignite-template.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0" encoding="UTF-8"?>
  2 | 
  3 | <beans xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  4 |        xmlns="http://www.springframework.org/schema/beans"
  5 |        xsi:schemaLocation="
  6 |        http://www.springframework.org/schema/beans
  7 |        classpath:org/springframework/beans/factory/xml/spring-beans-4.3.xsd">
  8 | 
  9 |     <bean id="igniteenvconf" class="org.springframework.beans.factory.config.PropertyPlaceholderConfigurer">
 10 |         <property name="order" value="1"/>
 11 |         <property name="ignoreUnresolvablePlaceholders" value="true"/>
 12 |     </bean>
 13 | 
 14 |     <bean id="igniteCfgRecordPair" class="org.apache.ignite.configuration.IgniteConfiguration">
 15 |         <property name="peerClassLoadingEnabled" value="true"/>
 16 |         <property name="gridName" value="RecordPairGrid"/>
 17 |         <property name="failureDetectionTimeout" value="60000"/>
 18 |         <property name="clientFailureDetectionTimeout" value="30000"/>
 19 |         <property name="publicThreadPoolSize" value="64"/>
 20 |         <property name="systemThreadPoolSize" value="32"/>
 21 | 
 22 |         <property name="dataStorageConfiguration">
 23 |             <bean class="org.apache.ignite.configuration.DataStorageConfiguration">
 24 |                 <property name="storagePath" value="/ssd1/ignite/igniteDisk/persistent" />
 25 |                 <property name="walPath" value="/ssd1/ignite/igniteDisk/wal_store"/>
 26 |                 <property name="walArchivePath" value="/ssd1/ignite/igniteDisk/wal_archive"/>
 27 |                 <property name="pageSize" value="4096"/>
 28 |                 <property name="writeThrottlingEnabled" value="true"/>
 29 | 
 30 |                 <property name="defaultDataRegionConfiguration">
 31 |                     <bean class="org.apache.ignite.configuration.DataRegionConfiguration">
 32 |                         <property name="name" value="Default_Region"/>
 33 |                         <!-- 100MB memory region with disabled eviction -->
 34 |                         <property name="initialSize" value="#{1L * 1024 * 1024 *1024}"/>
 35 |                         <property name="maxSize" value="#{20L * 1024 * 1024 *1024}"/>
 36 |                         <property name="persistenceEnabled" value="false"/>
 37 |                     </bean>
 38 |                 </property>
 39 | 
 40 |                 <property name="dataRegionConfigurations">
 41 |                     <list>
 42 |                         <bean class="org.apache.ignite.configuration.DataRegionConfiguration">
 43 |                             <property name="name" value="Disk_Region"/>
 44 |                             <!-- 100MB memory region with disabled eviction -->
 45 |                             <property name="initialSize" value="#{4L * 1024 * 1024 *1024}"/>
 46 |                             <property name="maxSize" value="#{10L * 1024 * 1024 *1024}"/>
 47 |                             <property name="pageEvictionMode" value="RANDOM_2_LRU"/>
 48 |                             <property name="persistenceEnabled" value="true"/>
 49 |                             <property name="checkpointPageBufferSize" value="#{1024L * 1024 * 1024}"/>
 50 |                         </bean>
 51 |                     </list>
 52 |                 </property>
 53 |             </bean>
 54 |         </property>
 55 | 
 56 |         <property name="cacheConfiguration">
 57 |             <list>
 58 | 
 59 | 
 60 | 
 61 |                 <bean class="org.apache.ignite.configuration.CacheConfiguration">
 62 |                     <property name="name" value="yunchen"/>
 63 |                     <property name="cacheMode" value="PARTITIONED"/>
 64 |                     <property name="backups" value="1"/>
 65 |                     <property name="dataRegionName" value="Disk_Region"/>
 66 |                     <property name="writeSynchronizationMode" value="PRIMARY_SYNC"/>
 67 | 
 68 | 
 69 |                     <property name="queryEntities">
 70 |                         <list>
 71 |                             <bean class="org.apache.ignite.cache.QueryEntity">
 72 |                                 <property name="keyType" value="java.lang.String"/>
 73 |                                 <property name="valueType"
 74 |                                           value="common.eventRow"/>
 75 |                                 <property name="fields">
 76 |                                     <map>
 77 |                                         <entry key="jioyrq" value="java.lang.String"/>
 78 |                                         <entry key="jioysj" value="java.lang.String"/>
 79 |                                         <entry key="guiyls" value="java.lang.String"/>
 80 |                                         <entry key="cpznxh" value="java.lang.Integer"/>
 81 |                                         <entry key="jiaoym" value="java.lang.String"/>
 82 |                                         <entry key="jiedbz" value="java.lang.String"/>
 83 |                                         <entry key="jio1je" value="java.math.BigDecimal"/>
 84 |                                         <entry key="kemucc" value="java.lang.String"/>
 85 |                                         <entry key="kehuzh" value="java.lang.String"/>
 86 |                                         <entry key="kehhao" value="java.lang.String"/>
 87 |                                         <entry key="zhyodm" value="java.lang.String"/>
 88 |                                         <entry key="hmjsjc" value="java.lang.String"/>
 89 |                                         <entry key="huobdh" value="java.lang.String"/>
 90 |                                     </map>
 91 |                                 </property>
 92 | 
 93 |                                 <property name="indexes">
 94 |                                     <list>
 95 |                                         <bean class="org.apache.ignite.cache.QueryIndex">
 96 |                                             <constructor-arg value="jioyrq"/>
 97 |                                         </bean>
 98 |                                         <bean class="org.apache.ignite.cache.QueryIndex">
 99 |                                             <constructor-arg value="guiyls"/>
100 |                                         </bean>
101 |                                         <bean class="org.apache.ignite.cache.QueryIndex">
102 |                                             <constructor-arg value="cpznxh"/>
103 |                                         </bean>
104 |                                         <bean class="org.apache.ignite.cache.QueryIndex">
105 |                                             <constructor-arg value="kehuzh"/>
106 |                                         </bean>
107 |                                         <bean class="org.apache.ignite.cache.QueryIndex">
108 |                                             <constructor-arg value="kehhao"/>
109 |                                         </bean>
110 |                                     </list>
111 |                                 </property>
112 |                             </bean>
113 |                         </list>
114 |                     </property>
115 |                 </bean>
116 | 
117 |             </list>
118 |         </property>
119 |         <!-- Configure TCP discovery SPI to provide list of initial nodes. -->
120 |         <property name="discoverySpi">
121 |             <bean class="org.apache.ignite.spi.discovery.tcp.TcpDiscoverySpi">
122 |                 <property name="ipFinder">
123 |                     <bean class="org.apache.ignite.spi.discovery.tcp.ipfinder.zk.TcpDiscoveryZookeeperIpFinder">
124 |                         <property name="zkConnectionString" value="{{ignite_zk_server}}"/>
125 |                         <property name="basePath" value="{{ignite_zk_watchpath}}"/>
126 |                     </bean>
127 |                 </property>
128 |             </bean>
129 |         </property>
130 |     </bean>
131 | </beans>
132 | 


--------------------------------------------------------------------------------
/pom.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0" encoding="UTF-8"?>
  2 | <project xmlns="http://maven.apache.org/POM/4.0.0"
  3 |          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  4 |          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  5 |     <modelVersion>4.0.0</modelVersion>
  6 | 
  7 |     <groupId>streamingPerformance</groupId>
  8 |     <artifactId>sparkstreamingkafkaperformance</artifactId>
  9 |     <version>1.0-SNAPSHOT</version>
 10 | 
 11 |     <dependencies>
 12 |         <dependency>
 13 |             <groupId>com.beust</groupId>
 14 |             <artifactId>jcommander</artifactId>
 15 |             <version>1.71</version>
 16 |         </dependency>
 17 | 
 18 |         <dependency>
 19 |             <groupId>org.apache.spark</groupId>
 20 |             <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
 21 |             <version>2.2.1</version>
 22 |         </dependency>
 23 | 
 24 |         <dependency>
 25 |             <groupId>org.apache.spark</groupId>
 26 |             <artifactId>spark-streaming_2.11</artifactId>
 27 |             <version>2.2.1</version>
 28 |             <scope>provided</scope>
 29 |         </dependency>
 30 | 
 31 |         <dependency>
 32 |             <groupId>org.apache.hadoop</groupId>
 33 |             <artifactId>hadoop-hdfs</artifactId>
 34 |             <version>2.6.5</version>
 35 |         </dependency>
 36 | 
 37 |         <dependency>
 38 |             <groupId>dom4j</groupId>
 39 |             <artifactId>dom4j</artifactId>
 40 |             <version>1.6.1</version>
 41 |         </dependency>
 42 | 
 43 |         <dependency>
 44 |             <groupId>junit</groupId>
 45 |             <artifactId>junit</artifactId>
 46 |             <version>3.8.1</version>
 47 |             <scope>test</scope>
 48 |         </dependency>
 49 | 
 50 |         <dependency>
 51 |             <groupId>org.apache.kafka</groupId>
 52 |             <artifactId>kafka-clients</artifactId>
 53 |             <version>0.10.0.1</version>
 54 |         </dependency>
 55 | 
 56 |         <dependency>
 57 |             <groupId>org.apache.ignite</groupId>
 58 |             <artifactId>ignite-spark</artifactId>
 59 |             <version>2.4.0</version>
 60 |             <exclusions>
 61 |                 <exclusion>
 62 |                     <groupId>jdk.tools</groupId>
 63 |                     <artifactId>jdk.tools</artifactId>
 64 |                 </exclusion>
 65 |             </exclusions>
 66 |         </dependency>
 67 | 
 68 |         <dependency>
 69 |             <groupId>org.apache.ignite</groupId>
 70 |             <artifactId>ignite-core</artifactId>
 71 |             <version>2.4.0</version>
 72 |         </dependency>
 73 | 
 74 | 
 75 |         <dependency>
 76 |             <groupId>org.apache.spark</groupId>
 77 |             <artifactId>spark-core_2.11</artifactId>
 78 |             <version>2.2.1</version>
 79 |         </dependency>
 80 | 
 81 |         <dependency>
 82 |             <groupId>org.apache.spark</groupId>
 83 |             <artifactId>spark-sql_2.11</artifactId>
 84 |             <version>2.2.1</version>
 85 |         </dependency>
 86 | 
 87 |         <dependency>
 88 |             <groupId>org.apache.spark</groupId>
 89 |             <artifactId>spark-catalyst_2.11</artifactId>
 90 |             <version>2.2.1</version>
 91 |         </dependency>
 92 | 
 93 |         <dependency>
 94 |             <groupId>org.apache.spark</groupId>
 95 |             <artifactId>spark-network-common_2.11</artifactId>
 96 |             <version>2.2.1</version>
 97 |         </dependency>
 98 | 
 99 |         <dependency>
100 |             <groupId>org.apache.spark</groupId>
101 |             <artifactId>spark-network-shuffle_2.11</artifactId>
102 |             <version>2.2.1</version>
103 |         </dependency>
104 |         <dependency>
105 |             <groupId>org.apache.spark</groupId>
106 |             <artifactId>spark-tags_2.11</artifactId>
107 |             <version>2.2.1</version>
108 |         </dependency>
109 |         <dependency>
110 |             <groupId>org.apache.spark</groupId>
111 |             <artifactId>spark-unsafe_2.11</artifactId>
112 |             <version>2.2.1</version>
113 |         </dependency>
114 | 
115 |         <dependency>
116 |             <groupId>org.apache.hadoop</groupId>
117 |             <artifactId>hadoop-common</artifactId>
118 |             <version>2.6.0</version>
119 |             <scope>provided</scope>
120 |         </dependency>
121 |         <dependency>
122 |             <groupId>org.apache.hadoop</groupId>
123 |             <artifactId>hadoop-client</artifactId>
124 |             <version>2.6.0</version>
125 |             <scope>provided</scope>
126 |         </dependency>
127 | 
128 |         <dependency>
129 |             <groupId>org.apache.hive</groupId>
130 |             <artifactId>hive-contrib</artifactId>
131 |             <version>1.1.0</version>
132 |         </dependency>
133 | 
134 |         <!-- curator start -->
135 |         <dependency>
136 |             <groupId>org.apache.curator</groupId>
137 |             <artifactId>curator-recipes</artifactId>
138 |             <version>2.9.1</version>
139 |         </dependency>
140 |         <dependency>
141 |             <groupId>org.apache.curator</groupId>
142 |             <artifactId>curator-client</artifactId>
143 |             <version>2.9.1</version>
144 |         </dependency>
145 |         <dependency>
146 |             <groupId>org.apache.curator</groupId>
147 |             <artifactId>curator-x-discovery</artifactId>
148 |             <version>2.9.1</version>
149 |         </dependency>
150 | 
151 |         <dependency>
152 |             <groupId>com.esotericsoftware</groupId>
153 |             <artifactId>kryo</artifactId>
154 |             <version>4.0.2</version>
155 |         </dependency>
156 | 
157 |     </dependencies>
158 |     <build>
159 |         <sourceDirectory>src/main/scala</sourceDirectory>
160 |         <testSourceDirectory>src/test</testSourceDirectory>
161 |         <plugins>
162 |             <!-- 下面这个shade会把依赖包打进jar里面去，jar包会很大 -->
163 |             <plugin>
164 |                 <groupId>org.apache.maven.plugins</groupId>
165 |                 <artifactId>maven-shade-plugin</artifactId>
166 |                 <version>3.0.0</version>
167 |                 <executions>
168 |                     <execution>
169 |                         <phase>package</phase>
170 |                         <goals>
171 |                             <goal>shade</goal>
172 |                         </goals>
173 |                         <configuration>
174 |                             <filters>
175 |                                 <filter>
176 |                                     <artifact>*:*</artifact>
177 |                                     <excludes>
178 |                                         <exclude>META-INF/*.SF</exclude>
179 |                                         <exclude>META-INF/*.DSA</exclude>
180 |                                         <exclude>META-INF/*.RSA</exclude>
181 |                                         <exclude>META-INF/DUMMY.DSA</exclude>
182 |                                     </excludes>
183 |                                 </filter>
184 |                             </filters>
185 | 
186 |                         </configuration>
187 |                     </execution>
188 |                 </executions>
189 |             </plugin>
190 |             <plugin>
191 |                 <groupId>org.codehaus.mojo</groupId>
192 |                 <artifactId>exec-maven-plugin</artifactId>
193 |                 <version>1.3.2</version>
194 |                 <executions>
195 |                     <execution>
196 |                         <goals>
197 |                             <goal>exec</goal>
198 |                         </goals>
199 |                     </execution>
200 |                 </executions>
201 |                 <configuration>
202 |                     <executable>scala</executable>
203 |                     <includeProjectDependencies>false</includeProjectDependencies>
204 |                     <includePluginDependencies>false</includePluginDependencies>
205 |                     <classpathScope>compile</classpathScope>
206 |                     <mainClass>textProject.dataImportKafkaPerformance</mainClass>
207 |                 </configuration>
208 |             </plugin>
209 | 
210 |             <!--            <plugin>
211 |                             <groupId>org.apache.maven.plugins</groupId>
212 |                             <artifactId>maven-jar-plugin</artifactId>
213 |                             <version>3.0.2</version>
214 |                             <configuration>
215 |                            &lt;!&ndash;     <source>1.9</source>
216 |                                 <target>1.9</target>&ndash;&gt;
217 |                                 <archive>
218 |                                     <manifest>
219 |                                         <mainClass>com.yunchen.test.HDFSUtils</mainClass>
220 |                                         <addClasspath>false</addClasspath>
221 |                                         <classpathPrefix>lib/</classpathPrefix>
222 |                                     </manifest>
223 | 
224 |                                 </archive>
225 |                                 <classesDirectory>
226 |                                 </classesDirectory>
227 |                             </configuration>
228 |                         </plugin>-->
229 | 
230 |             <plugin>
231 |                 <groupId>org.scala-tools</groupId>
232 |                 <artifactId>maven-scala-plugin</artifactId>
233 |                 <version>2.15.2</version>
234 |                 <executions>
235 |                     <execution>
236 |                         <goals>
237 |                             <goal>compile</goal>
238 |                             <goal>testCompile</goal>
239 |                         </goals>
240 |                     </execution>
241 |                 </executions>
242 |             </plugin>
243 | 
244 |             <plugin>
245 |                 <groupId>org.apache.maven.plugins</groupId>
246 |                 <artifactId>maven-compiler-plugin</artifactId>
247 |                 <version>3.1</version>
248 |                 <configuration>
249 |                     <source>1.8</source>
250 |                     <target>1.8</target>
251 |                 </configuration>
252 |             </plugin>
253 |             <plugin>
254 |                 <groupId>org.apache.maven.plugins</groupId>
255 |                 <artifactId>maven-assembly-plugin</artifactId>
256 |                 <configuration>
257 |                     <descriptor>src/assembly/bin.xml</descriptor>
258 |                     <finalName>${project.name}-${project.version}</finalName>
259 |                 </configuration>
260 |                 <executions>
261 |                     <execution>
262 |                         <phase>package</phase>
263 |                         <goals>
264 |                             <goal>single</goal>
265 |                         </goals>
266 |                     </execution>
267 |                 </executions>
268 |             </plugin>
269 | 
270 |             <!--            <plugin>
271 |                             <groupId>pl.project13.maven</groupId>
272 |                             <artifactId>git-commit-id-plugin</artifactId>
273 |                             <version>2.2.3</version>
274 |                             <executions>
275 |                                 <execution>
276 |                                     <id>get-the-git-infos</id>
277 |                                     <goals>
278 |                                         <goal>revision</goal>
279 |                                     </goals>
280 |                                 </execution>
281 |                                 <execution>
282 |                                     <id>validate-the-git-infos</id>
283 |                                     <goals>
284 |                                         <goal>validateRevision</goal>
285 |                                     </goals>
286 |                                     <phase>package</phase>
287 |                                 </execution>
288 |                             </executions>
289 |                             <configuration>
290 |                                 <verbose>true</verbose>
291 |                                 <prefix>git</prefix>
292 |                                 <dotGitDirectory>${project.basedir}/.git</dotGitDirectory>
293 |                                 <generateGitPropertiesFile>true</generateGitPropertiesFile>
294 |                                 <generateGitPropertiesFilename>${project.basedir}/src/main/resources/batch_${project.name}_git.properties</generateGitPropertiesFilename>
295 |                             </configuration>
296 |                         </plugin>-->
297 | 
298 |         </plugins>
299 |     </build>
300 | 
301 | </project>


--------------------------------------------------------------------------------
/smokeData/imputData.md:
--------------------------------------------------------------------------------
 1 | 20180201,115655,200000010000001,1,7983,1,10000.00 ,S,62259910005001,11000001,其他代码,11/10/2018,01
 2 | 20180201,115656,200000010000002,1,7983,1,10000.00 ,S,62259910005002,11000002,其他代码,11/11/2018,02
 3 | 20180201,115657,200000010000003,1,7983,1,10000.00 ,S,62259910005003,11000003,其他代码,11/12/2018,03
 4 | 20180201,115658,200000010000004,1,7983,1,10000.00 ,S,62259910005004,11000001,其他代码,11/13/2018,04
 5 | 20180201,115659,200000010000005,1,7983,1,10000.00 ,S,62259910005005,11000002,其他代码,11/14/2018,05
 6 | 20180201,115660,200000010000006,1,7983,1,10000.00 ,S,62259910005006,11000003,其他代码,11/15/2018,06
 7 | 20180201,115661,200000010000007,1,7983,1,10000.00 ,S,62259910005007,11000001,其他代码,11/16/2018,07
 8 | 20180201,115662,200000010000008,1,7983,1,10000.00 ,S,62259910005008,11000002,其他代码,11/17/2018,08
 9 | 20180201,115663,200000010000009,1,7983,1,10000.00 ,S,62259910005009,11000003,其他代码,11/18/2018,09
10 | 
11 | 
12 | 注意：有中文编码是gbk，可以再建hive表时指定编码，这样spark读取出来就不会乱码


--------------------------------------------------------------------------------
/src/assembly/bin.xml:
--------------------------------------------------------------------------------
 1 |  <assembly>
 2 |     <formats>
 3 |         <format>tar.gz</format>
 4 |     </formats>
 5 | <!--	<files>
 6 | 	    <file>
 7 | 		   <source>template_file_list</source>
 8 | 		   <fileMode>644</fileMode>
 9 | 		   <lineEnding>unix</lineEnding>
10 | 		</file>
11 | 	</files>-->
12 |     <fileSets>
13 |         <fileSet>
14 |             <directory>smokeData</directory>
15 |             <outputDirectory>smokeData</outputDirectory>
16 |         </fileSet>
17 |         <fileSet>
18 |             <directory>configFile</directory>
19 |             <outputDirectory>configFile</outputDirectory>
20 |         </fileSet>
21 |         <fileSet>
22 |             <directory>bin</directory>
23 |             <outputDirectory>bin</outputDirectory>
24 |             <directoryMode>0755</directoryMode>
25 |             <fileMode>0755</fileMode>
26 |             <includes>
27 |                 <include>*.sh</include>
28 |             </includes>
29 |             <lineEnding>unix</lineEnding>
30 |         </fileSet>
31 | 
32 |         <fileSet>
33 |             <directory>target</directory>
34 |             <outputDirectory>lib</outputDirectory>
35 |             <fileMode>0644</fileMode>
36 |             <includes>
37 |                 <include>${project.name}-${project.version}.jar</include>
38 |             </includes>
39 |         </fileSet>
40 |     </fileSets>
41 | 
42 | 
43 | 
44 | </assembly>
45 | 


--------------------------------------------------------------------------------
/src/main/java/mycallback.java:
--------------------------------------------------------------------------------
 1 | import org.apache.kafka.clients.producer.Callback;
 2 | import org.apache.kafka.clients.producer.RecordMetadata;
 3 | 
 4 | public class mycallback implements Callback {
 5 |     @Override
 6 |     public void onCompletion(RecordMetadata metadata, Exception exception) {
 7 | 
 8 |     }
 9 | }
10 | 


--------------------------------------------------------------------------------
/src/main/scala/common/Args.scala:
--------------------------------------------------------------------------------
 1 | package common
 2 | 
 3 | import com.beust.jcommander.Parameter
 4 | 
 5 | class Args extends Serializable {
 6 | 
 7 |   @Parameter(names = Array("-appName"), required = true) var appName: String = null
 8 | 
 9 |   @Parameter(names = Array("-igniteconfxml"), required = true) var igniteconfxml: String = null
10 | 
11 |   @Parameter(names = Array("-cachename"), required = true) var cachename: String = null
12 | 
13 |   @Parameter(names = Array("-partitionNum"), required = true) var partitionNum: Integer = null
14 | 
15 |   @Parameter(names = Array("-brokers"), required = true) var brokers: String = null
16 | 
17 |   @Parameter(names = Array("-groupid"), required = true) var groupid: String = null
18 | 
19 |   @Parameter(names = Array("-topic"), required = true) var topic: String = null
20 | 
21 |   @Parameter(names = Array("-hiveTableName"), required = true) var hiveTableName: String = null
22 | 
23 |   @Parameter(names = Array("-topicCompression"), required = false) var topicCompression: String = "snappy"
24 | 
25 |   @Parameter(names = Array("-bufferMem"), required = false) var bufferMem: String = "33554432"
26 | 
27 |   @Parameter(names = Array("-lingerMs"), required = false) var lingerMs: String = "0"
28 | 
29 |   @Parameter(names = Array("-retries"), required = false) var retries: String = "0"
30 | 
31 |   @Parameter(names = Array("-durationTime"), required = false) var durationTime: Int = 500
32 | 
33 |   @Parameter(names = Array("-perConnection"), required = false) var perConnection: String = "1"
34 | 
35 |   @Parameter(names = Array("-batchSize"), required = false) var batchSize: String = "65536"
36 | 
37 |   @Parameter(names = Array("-allowOverwrite"), required = false) var allowOverwrite: Boolean = true
38 | 
39 |   @Parameter(names = Array("-primaryKey"), required = false) var primaryKey: String = "guiyls,kehhao,jioysj"
40 | 
41 |   @Parameter(names = Array("-writeMode"), required = false) var writeMode: String = "Append"
42 | 
43 |   @Parameter(names = Array("-tableParameters"), required = false) var tableParameters: String = "BACKUPS=1, ATOMICITY=TRANSACTIONAL, CACHE_NAME=yc, DATA_REGION=Default_Region"
44 | 
45 | 
46 | }
47 | 


--------------------------------------------------------------------------------
/src/main/scala/common/KafkaSink.scala:
--------------------------------------------------------------------------------
 1 | package common
 2 | 
 3 | 
 4 | import java.util.concurrent.Future
 5 | 
 6 | import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord, RecordMetadata}
 7 | import org.apache.kafka.common.errors.InterruptException
 8 | 
 9 | class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) extends Serializable {
10 |   /* This is the key idea that allows us to work around running into
11 |      NotSerializableExceptions. */
12 |   lazy val producer = createProducer()
13 | 
14 |   def send(topic: String, key: K, value: V): Future[RecordMetadata] =
15 |     producer.send(new ProducerRecord[K, V](topic, key, value))
16 | 
17 |   def send(topic: String, value: V): Future[RecordMetadata] =
18 |     producer.send(new ProducerRecord[K, V](topic, value))
19 | 
20 |   def send(topic: String, partitionNum: Integer, key: K, value: V) =
21 |     producer.send(new ProducerRecord[K,V](topic, partitionNum, key, value))
22 | 
23 |   def send(topic: String, partitionNum: Integer, key: K, value: V, callback: mycallback) =
24 |     try {
25 |       producer.send(new ProducerRecord[K, V](topic, partitionNum, key, value), new mycallback).get()
26 |     } catch {
27 |       case ex: InterruptException => print("inter")
28 |     }
29 | }
30 | 
31 | object KafkaSink {
32 | 
33 |   import scala.collection.JavaConversions._
34 | 
35 |   def apply[K, V](config: Map[String, Object]): KafkaSink[String, Object] = {
36 |     val createProducerFunc = () => {
37 |       val producer = new KafkaProducer[String, Object](config)
38 |       sys.addShutdownHook {
39 |         // Ensure that, on executor JVM shutdown, the Kafka producer sends
40 |         // any buffered messages to Kafka before shutting down.
41 |         producer.close()
42 |       }
43 |       producer
44 |     }
45 |     new KafkaSink(createProducerFunc)
46 |   }
47 | 
48 |   def apply[K, V](config: java.util.Properties): KafkaSink[String, Object] = apply(config.toMap)
49 | }
50 | 
51 | 
52 | 
53 | 
54 | 


--------------------------------------------------------------------------------
/src/main/scala/common/eventRow.scala:
--------------------------------------------------------------------------------
 1 | package common
 2 | 
 3 | import java.io.ByteArrayOutputStream
 4 | 
 5 | import com.esotericsoftware.kryo.Kryo
 6 | import com.esotericsoftware.kryo.io.{Input, Output}
 7 | 
 8 | case class eventRow(
 9 |                      jioyrq: String,
10 |                      jioysj: String,
11 |                      guiyls: String,
12 |                      cpznxh: String,
13 |                      jiaoym: String,
14 |                      jiedbz: String,
15 |                      jio1je: String,
16 |                      kemucc: String,
17 |                      kehuzh: String,
18 |                      kehhao: String,
19 |                      zhyodm: String,
20 |                      hmjsjc: String,
21 |                      huobdh: String
22 |                    ) {
23 |   def setSerializationObjectByKryo(ob: Object): Array[Byte] = {
24 | 
25 |     var by = new ByteArrayOutputStream()
26 |     var output = new Output(by)
27 |     try {
28 |       val kryo = new Kryo()
29 |       kryo.writeObject(output, ob)
30 |       output.close()
31 |     }catch {
32 |       case ex:Any => {
33 |         ex.printStackTrace()
34 |       }
35 |     }
36 |     by.toByteArray
37 | 
38 |   }
39 | 
40 |   def getSerializationObjectByKryo(bytes: Array[Byte]) = {
41 | 
42 |     var input = new Input(bytes)
43 |     var event: eventRow = null
44 | 
45 |     try {
46 |       val kryo = new Kryo()
47 |       event = kryo.readObject(input, classOf[eventRow])
48 |       input.close()
49 |     }catch {
50 |       case ex:Any => {
51 |         ex.printStackTrace()
52 |       }
53 |     }
54 | 
55 |     event
56 | 
57 |   }
58 | }
59 | 
60 | 
61 | 


--------------------------------------------------------------------------------
/src/main/scala/common/igniteWriter.scala:
--------------------------------------------------------------------------------
 1 | package common
 2 | 
 3 | import java.sql.{Connection, DriverManager}
 4 | 
 5 | import com.sun.mail.iap.ConnectionException
 6 | import org.apache.spark.sql.{ForeachWriter, Row}
 7 | 
 8 | class igniteWriter(igniteJdbc: String) extends ForeachWriter[Row] {
 9 | 
10 | 
11 |   //"jdbc:ignite:cfg://file:///etc/config/ignite-jdbc.xml"
12 |   //"INSERT INTO Person(_key, name, age) VALUES(CAST(? as BIGINT), ?, ?)"
13 | 
14 |   var connection: Connection = null
15 |   Class.forName("org.apache.ignite.IgniteJdbcDriver")
16 | 
17 |   override def open(partitionId: Long, version: Long): Boolean = {
18 | 
19 |     try {
20 |       connection = DriverManager.getConnection(igniteJdbc)
21 |     } catch {
22 |       case ex: ConnectionException => {
23 |         ex.printStackTrace()
24 |         println("连接ignite错误："+igniteJdbc)
25 |       }
26 |     }
27 | 
28 |     true
29 |   }
30 | 
31 |   override def process(value: Row): Unit = {
32 |     val stmt =  connection.prepareStatement("MERGE INTO yc(jioyrq,jioysj,guiyls,cpznxh,jiaoym,jiedbz,jio1je,kemucc,kehuzh,kehhao," +
33 |       "zhyodm,hmjsjc,huobdh) VALUES(?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)")
34 |     val tmp:eventRow = eventRow(value.mkString(",")(0).toString.replace("(",""),value.mkString(",")(0).toString,
35 |       value.mkString(",")(0).toString,value.mkString(",")(0).toString,value.mkString(",")(0).toString,value.mkString(",")(0).toString,
36 |       value.mkString(",")(0).toString,value.mkString(",")(0).toString,value.mkString(",")(0).toString,value.mkString(",")(0).toString,
37 |       value.mkString(",")(0).toString,value.mkString(",")(0).toString,value.mkString(",")(0).toString)
38 |     stmt.setString(1,tmp.jioyrq)
39 |     stmt.setString(2,tmp.jioysj)
40 |     stmt.setString(3,tmp.guiyls)
41 |     stmt.setString(4,tmp.cpznxh)
42 |     stmt.setString(5,tmp.jiaoym)
43 |     stmt.setString(6,tmp.jiedbz)
44 |     stmt.setString(7,tmp.jio1je)
45 |     stmt.setString(8,tmp.kemucc)
46 |     stmt.setString(9,tmp.kehuzh)
47 |     stmt.setString(10,tmp.kehhao)
48 |     stmt.setString(11,tmp.zhyodm)
49 |     stmt.setString(12,tmp.hmjsjc)
50 |     stmt.setString(13,tmp.huobdh)
51 |     stmt.execute()
52 |   }
53 | 
54 |   override def close(errorOrNull: Throwable): Unit = connection.close()
55 | }
56 | 


--------------------------------------------------------------------------------
/src/main/scala/common/kryoSerializer.scala:
--------------------------------------------------------------------------------
 1 | package common
 2 | 
 3 | import java.io.ByteArrayOutputStream
 4 | 
 5 | import com.esotericsoftware.kryo.Kryo
 6 | import com.esotericsoftware.kryo.io.{Input, Output}
 7 | 
 8 | object kryoSerializer {
 9 | 
10 |   def setSerializationObjectByKryo(ob: Object):Array[Byte] = {
11 | 
12 |     var by = new ByteArrayOutputStream()
13 |     var output = new Output(by)
14 |     try {
15 |       val kryo = new Kryo()
16 |       kryo.writeObject(output, ob)
17 |       output.close()
18 |     }catch {
19 |       case ex:Any => {
20 |         ex.printStackTrace()
21 |       }
22 |     }
23 |     by.toByteArray
24 | 
25 |   }
26 | 
27 |   def getSerializationObjectByKryo(bytes: Array[Byte]) = {
28 | 
29 |     var input = new Input(bytes)
30 |     var event:eventRow = null
31 | 
32 |     try {
33 |       val kryo = new Kryo()
34 |       event = kryo.readObject(input,classOf[eventRow])
35 |       input.close()
36 |     }catch {
37 |       case ex:Any => {
38 |         ex.printStackTrace()
39 |       }
40 |     }
41 | 
42 |     event
43 | 
44 |   }
45 | 
46 | }
47 | 


--------------------------------------------------------------------------------
/src/main/scala/common/mycallback.scala:
--------------------------------------------------------------------------------
1 | package common
2 | 
3 | import org.apache.kafka.clients.producer.{Callback, RecordMetadata}
4 | 
5 | class mycallback extends Callback{
6 |   override def onCompletion(metadata: RecordMetadata, exception: Exception): Unit = ???
7 | }
8 | 


--------------------------------------------------------------------------------
/src/main/scala/objectProject/dataImportKafkaPerformance.scala:
--------------------------------------------------------------------------------
  1 | package objectProject
  2 | 
  3 | import java.util.Properties
  4 | 
  5 | import com.beust.jcommander.JCommander
  6 | import org.apache.kafka.common.serialization.{ByteArraySerializer, StringSerializer}
  7 | import org.apache.log4j.Logger
  8 | import org.apache.spark.broadcast.Broadcast
  9 | import org.apache.spark.sql.SparkSession
 10 | import common.{Args, KafkaSink, eventRow, kryoSerializer}
 11 | 
 12 | class dataImportKafkaPerformance() {
 13 | 
 14 | }
 15 | 
 16 | object dataImportKafkaPerformance {
 17 | 
 18 |   private val log = Logger.getLogger(classOf[dataImportKafkaPerformance])
 19 |   val sTime: Long = System.currentTimeMillis
 20 | 
 21 |   def main(args: Array[String]): Unit = {
 22 | 
 23 |     dataImportKafka(args)
 24 | 
 25 |   }
 26 | 
 27 |   def dataImportKafka(args: Array[String]): Unit = {
 28 |     //获取传入参数
 29 |     log.info("========================================== 初始化jcommander ==========================================")
 30 |     val argv = new Args()
 31 |     JCommander.newBuilder().addObject(argv).build().parse(args: _*)
 32 | 
 33 |     //创建sparksession
 34 |     val spark = SparkSession
 35 |       .builder()
 36 |       .appName(argv.appName)
 37 |       .enableHiveSupport()
 38 |       .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
 39 |       .getOrCreate()
 40 | 
 41 |     spark.sparkContext.getConf.registerKryoClasses(Array(classOf[Args],classOf[eventRow]))
 42 | 
 43 |     import spark.implicits._
 44 | 
 45 |     /**
 46 |       * only used for test
 47 |       */
 48 |     //log.warn("打印出所有的配置项，供优化参考： \n" + spark.conf.getAll)
 49 | 
 50 |     log.info("========================================== 初始化kafka producer ==========================================")
 51 |     val kafkaProducer: Broadcast[KafkaSink[String, Object]] = {
 52 |       val kafkaProducerConfig = {
 53 |         val p = new Properties()
 54 |         p.setProperty("bootstrap.servers", argv.brokers)
 55 |         p.setProperty("acks", "all")
 56 |         p.setProperty("max.in.flight.requests.per.connection", argv.perConnection)
 57 |         p.setProperty("batch.size", argv.batchSize)
 58 |         p.setProperty("retries", argv.retries)
 59 |         p.setProperty("linger.ms", argv.lingerMs)
 60 |         p.setProperty("buffer.memory", argv.bufferMem)
 61 |         p.setProperty("compression.type", argv.topicCompression)
 62 |         p.setProperty("key.serializer", classOf[StringSerializer].getName)
 63 |         p.setProperty("value.serializer", classOf[ByteArraySerializer].getName)
 64 |         p
 65 |       }
 66 |       log.warn("kafka producer init done!")
 67 |       spark.sparkContext.broadcast(KafkaSink[String, Object](kafkaProducerConfig))
 68 |     }
 69 | 
 70 |     /**
 71 |       * read data from hive
 72 |       */
 73 | 
 74 |     val tableDF = spark.table(argv.hiveTableName).select(
 75 |       "jioyrq",
 76 |       "jioysj",
 77 |       "guiyls",
 78 |       "cpznxh",
 79 |       "jiaoym",
 80 |       "jiedbz",
 81 |       "jio1je",
 82 |       "kemucc",
 83 |       "kehuzh",
 84 |       "kehhao",
 85 |       "zhyodm",
 86 |       "hmjsjc",
 87 |       "huobdh")
 88 | 
 89 |     /**
 90 |       * 一行读取出来，然后判断一行中部分字段是否有业务逻辑问题，如有则记录，发送到error kafka topic中
 91 |       *
 92 |       * 输入的是df，然后需要对每一行的每一个字段进行逻辑判断，满足要求则直接取值，不满足要求则改变其值，然后返回一行新的row，最后返回一个新的df
 93 |       */
 94 | 
 95 |     log.info("========================================== 开始转换df ==========================================")
 96 |     val filterTableDF = tableDF.map(newRow =>
 97 |         (eventRow(newRow(0).toString,if ((!(newRow(1).toString).equals(""))) newRow(1).toString else "0",
 98 |           newRow(2).toString, if (!((newRow(3).toString).equals(""))) newRow(3).toString else "0", newRow(4).toString,
 99 |           newRow(5).toString, if (!((newRow(6).toString).equals(""))) newRow(6).toString else "0", newRow(7).toString, newRow(8).toString,
100 |           newRow(9).toString, newRow(10).toString, newRow(11).toString, newRow(12).toString))
101 |       )
102 | 
103 |     /**
104 |       * 进行二次排序
105 |       */
106 |     log.info("========================================== 开始二次排序 ==========================================")
107 | 
108 |     import org.apache.spark.sql._
109 |     val sortFilterTableDF = filterTableDF.repartition(argv.partitionNum,new Column("kehhao")).sortWithinPartitions("huobdh")
110 | 
111 |     /**
112 |       * 然后调用foreatchPartition写入对应的分区，这里是否需要自定义partitioner？
113 |       */
114 | 
115 |     log.info("========================================== 开始写入kafka ==========================================")
116 | /*
117 |     sortFilterTableDF.rdd.mapPartitions(rows => {
118 |       log.info("========================================== kafka 1 ==========================================")
119 |       rows.map(row => {
120 |         val kafkaPartition: Int = row.kehhao.toInt % argv.partitionNum
121 |         log.info("kafkaPartition===============" + kafkaPartition)
122 |         kafkaProducer.value.send(argv.topic, kafkaPartition ,row.kehhao.toString, row.toString)
123 |       })
124 |     }).collect()
125 | */
126 | 
127 |     sortFilterTableDF.foreachPartition(rows=>{
128 |       while (rows.hasNext){
129 |         val tmp = rows.next()
130 |         var kafkaPartition = 0
131 |         try {
132 |           kafkaPartition = tmp.kehhao.trim.toInt % argv.partitionNum
133 |         }catch{
134 |           case ex: NumberFormatException =>{
135 |             println(ex.getMessage)
136 |             log.warn("异常数据："+tmp.toString())
137 |           }
138 |           case ex: Any => {
139 |             println("Unkown error!!")
140 |           }
141 |         }
142 |         //log.info("kafkaPartition===============" + kafkaPartition)
143 |         kafkaProducer.value.send(argv.topic, kafkaPartition ,tmp.kehhao.toString+"_"+tmp.guiyls.toString+"_"+tmp.jioysj.toString,
144 |           kryoSerializer.setSerializationObjectByKryo(tmp))
145 |       }
146 |     })
147 | 
148 |     kafkaProducer.value.producer.flush()
149 |     kafkaProducer.value.producer.close()
150 | 
151 |     spark.close()
152 |   }
153 | 
154 | }
155 | 


--------------------------------------------------------------------------------
/src/main/scala/objectProject/streamingKafkaToIgnitePerformance.scala:
--------------------------------------------------------------------------------
  1 | package objectProject
  2 | 
  3 | import com.beust.jcommander.JCommander
  4 | import org.apache.ignite.spark.IgniteDataFrameSettings._
  5 | import org.apache.kafka.common.serialization.{ByteArrayDeserializer, StringDeserializer}
  6 | import org.apache.log4j.Logger
  7 | import org.apache.spark.sql.SparkSession
  8 | import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe
  9 | import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
 10 | import org.apache.spark.streaming.kafka010.{CanCommitOffsets, HasOffsetRanges, KafkaUtils, OffsetRange}
 11 | import org.apache.spark.streaming.{Duration, StreamingContext}
 12 | import common.{Args, eventRow, kryoSerializer}
 13 | 
 14 | class streamingKafkaToIgnitePerformance {
 15 | 
 16 | }
 17 | 
 18 | object streamingKafkaToIgnitePerformance {
 19 | 
 20 |   private val log = Logger.getLogger(classOf[streamingKafkaToIgnitePerformance])
 21 | 
 22 |   def main(args: Array[String]): Unit = {
 23 | 
 24 |     /**
 25 |       * 获取输入参数与定义全局变量
 26 |       */
 27 | 
 28 |     log.info("获取输入变量")
 29 |     val argv = new Args()
 30 |     JCommander.newBuilder().addObject(argv).build().parse(args: _*)
 31 | 
 32 |     /**
 33 |       * 创建source/dest context
 34 |       */
 35 |     log.info("初始sparkcontext和kuducontext")
 36 |     val spark = SparkSession.builder().appName(argv.appName).enableHiveSupport().getOrCreate()
 37 |     spark.sparkContext.getConf.registerKryoClasses(Array(classOf[Args],classOf[eventRow]))
 38 | 
 39 |     val ssc = new StreamingContext(spark.sparkContext, Duration(argv.durationTime))
 40 |     ssc.checkpoint("/tmp/streamingToIgnite")
 41 | 
 42 |     /**
 43 |       * 初始化igniteContext
 44 |       */
 45 |     /*
 46 |         log.info("========================================== 初始化ignite ==========================================")
 47 |         val igniteContext = new IgniteContext(spark.sparkContext, argv.igniteconfxml, true)
 48 |         val fromCache: IgniteRDD[String, String] = igniteContext.fromCache(argv.cachename)
 49 |     */
 50 | 
 51 |     /**
 52 |       * 创建多线程kafka数据流
 53 |       */
 54 |     log.info("初始化kafka数据流")
 55 |     val kafkaParams = Map[String, Object](
 56 |       "bootstrap.servers" -> argv.brokers,
 57 |       "key.deserializer" -> classOf[StringDeserializer],
 58 |       "value.deserializer" -> classOf[ByteArrayDeserializer],
 59 |       "group.id" -> argv.groupid,
 60 |       "auto.offset.reset" -> "latest",
 61 |       "session.timeout.ms" -> "30000",
 62 |       "enable.auto.commit" -> (false: java.lang.Boolean)
 63 |     )
 64 |     val topics = Array(argv.topic)
 65 | 
 66 |     val stream =  KafkaUtils.createDirectStream[String, Array[Byte]](ssc, PreferConsistent, Subscribe[String, Array[Byte]](topics, kafkaParams))
 67 | 
 68 |     /**
 69 |       * 开始处理数据
 70 |       */
 71 |     log.info("开始处理数据")
 72 | 
 73 |     var offsetRanges = Array[OffsetRange]()
 74 | 
 75 |     stream.foreachRDD(rdd => {
 76 | 
 77 | 
 78 |         offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
 79 | 
 80 |         /**
 81 |           * 仅测试，输出offset， key， value
 82 |           *
 83 |           * 如果要存储offset也可以用同样的方法去做
 84 |           */
 85 |         /*
 86 |             for (record <- rdd) {
 87 |                 System.out.printf("offset = %d, key = %s, value = %s\n",
 88 |                 record.offset(), record.key(), record.value());
 89 |             }
 90 |       */
 91 | 
 92 |         val valueRDD = rdd.map(x=>(x.key(),kryoSerializer.getSerializationObjectByKryo(x.value())))
 93 | 
 94 |         log.info("开始写入ignite")
 95 | 
 96 |         import spark.implicits._
 97 |         val df = valueRDD.toDF()
 98 | 
 99 |         df.write
100 |           .format(FORMAT_IGNITE)
101 |           .option(OPTION_CONFIG_FILE, argv.igniteconfxml)
102 |           .option(OPTION_TABLE, argv.cachename)
103 |           .mode(argv.writeMode)
104 |           .option(OPTION_STREAMER_ALLOW_OVERWRITE, argv.allowOverwrite)
105 |           .option(OPTION_CREATE_TABLE_PRIMARY_KEY_FIELDS, argv.primaryKey)
106 |           .option(OPTION_CREATE_TABLE_PARAMETERS, argv.tableParameters)
107 |           .save()
108 | 
109 |         stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
110 | 
111 |     })
112 | 
113 |     // TODO 判断流是否为空，如果为空则不提交任务，节省调度时间
114 |     ssc.start()
115 |     ssc.awaitTermination()
116 | 
117 |   }
118 | 
119 | }
120 | 


--------------------------------------------------------------------------------
/src/main/scala/objectProject/structuredStreamingKafkaToIgnitePerformance.scala:
--------------------------------------------------------------------------------
 1 | package objectProject
 2 | 
 3 | 
 4 | import com.beust.jcommander.JCommander
 5 | import org.apache.log4j.Logger
 6 | import org.apache.spark.sql.SparkSession
 7 | import common.{Args, igniteWriter}
 8 | 
 9 | class structuredStreamingKafkaToIgnitePerformance {
10 | 
11 | }
12 | 
13 | object structuredStreamingKafkaToIgnitePerformance {
14 | 
15 |   private val log = Logger.getLogger(classOf[streamingKafkaToIgnitePerformance])
16 | 
17 |   def main(args: Array[String]): Unit = {
18 | 
19 |     /**
20 |       * 获取输入参数与定义全局变量
21 |       */
22 | 
23 |     log.info("获取输入变量")
24 |     val argv = new Args()
25 |     JCommander.newBuilder().addObject(argv).build().parse(args: _*)
26 | 
27 |     /**
28 |       * 创建source/dest context
29 |       */
30 |     log.info("初始sparkcontext")
31 |     val spark = SparkSession.builder().appName(argv.appName).enableHiveSupport().getOrCreate()
32 |     spark.sparkContext.getConf.registerKryoClasses(Array(classOf[Args]))
33 | 
34 |     val kafkaParams = Map[String, String](
35 |       "subscribe" -> argv.topic,
36 |       "kafka.bootstrap.servers" -> argv.brokers,
37 |       "group.id" -> argv.groupid,
38 |       "auto.offset.reset" -> "latest",
39 |       "session.timeout.ms" -> "30000"
40 |     )
41 | 
42 |     val records = spark.readStream.format("kafka").options(kafkaParams)
43 |       .option("enable.auto.commit", (false: java.lang.Boolean))
44 |       .option("checkpointLocation", "/tmp/structuredStreaming")
45 |       .load()
46 | 
47 |     /**
48 |       * 开始处理数据
49 |       */
50 | 
51 |     val recordsVlues = records.selectExpr("CAST(value AS STRING)")
52 | 
53 |     val igniteJdbc = "jdbc:ignite:cfg://file://" + argv.igniteconfxml
54 |     recordsVlues.writeStream.foreach(new igniteWriter(igniteJdbc)).outputMode("append").start().awaitTermination()
55 | 
56 |   }
57 | 
58 | }
59 | 
60 | 


--------------------------------------------------------------------------------
/src/main/scala/textProject/dataImportKafkaPerformance.scala:
--------------------------------------------------------------------------------
  1 | package textProject
  2 | 
  3 | import java.util.Properties
  4 | 
  5 | import com.beust.jcommander.JCommander
  6 | import org.apache.kafka.common.serialization.StringSerializer
  7 | import org.apache.log4j.Logger
  8 | import org.apache.spark.broadcast.Broadcast
  9 | import org.apache.spark.sql.SparkSession
 10 | import common.{Args, KafkaSink, eventRow}
 11 | 
 12 | class dataImportKafkaPerformance() {
 13 | 
 14 | }
 15 | 
 16 | object dataImportKafkaPerformance {
 17 | 
 18 |   private val log = Logger.getLogger(classOf[dataImportKafkaPerformance])
 19 |   val sTime: Long = System.currentTimeMillis
 20 | 
 21 |   def main(args: Array[String]): Unit = {
 22 | 
 23 |     dataImportKafka(args)
 24 | 
 25 |   }
 26 | 
 27 |   def dataImportKafka(args: Array[String]): Unit = {
 28 |     //获取传入参数
 29 |     log.info("========================================== 初始化jcommander ==========================================")
 30 |     val argv = new Args()
 31 |     JCommander.newBuilder().addObject(argv).build().parse(args: _*)
 32 | 
 33 |     //创建sparksession
 34 |     val spark = SparkSession
 35 |       .builder()
 36 |       .appName(argv.appName)
 37 |       .enableHiveSupport()
 38 |       .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
 39 |       .getOrCreate()
 40 | 
 41 |     spark.sparkContext.getConf.registerKryoClasses(Array(classOf[Args],classOf[eventRow]))
 42 | 
 43 |     import spark.implicits._
 44 | 
 45 |     /**
 46 |       * only used for test
 47 |       */
 48 |     log.warn("打印出所有的配置项，供优化参考： \n" + spark.conf.getAll)
 49 | 
 50 |     log.info("========================================== 初始化kafka producer ==========================================")
 51 |     val kafkaProducer: Broadcast[KafkaSink[String, Object]] = {
 52 |       val kafkaProducerConfig = {
 53 |         val p = new Properties()
 54 |         p.setProperty("bootstrap.servers", argv.brokers)
 55 |         p.setProperty("acks", "all")
 56 |         p.setProperty("max.in.flight.requests.per.connection", argv.perConnection)
 57 |         p.setProperty("batch.size", argv.batchSize)
 58 |         p.setProperty("retries", argv.retries)
 59 |         p.setProperty("linger.ms", argv.lingerMs)
 60 |         p.setProperty("buffer.memory", argv.bufferMem)
 61 |         p.setProperty("compression.type", argv.topicCompression)
 62 |         p.setProperty("key.serializer", classOf[StringSerializer].getName)
 63 |         p.setProperty("value.serializer", classOf[StringSerializer].getName)
 64 |         p
 65 |       }
 66 |       log.warn("kafka producer init done!")
 67 |       spark.sparkContext.broadcast(KafkaSink[String, String](kafkaProducerConfig))
 68 |     }
 69 | 
 70 |     /**
 71 |       * read data from hive
 72 |       */
 73 | 
 74 |     val tableDF = spark.table(argv.hiveTableName).select(
 75 |       "jioyrq",
 76 |       "jioysj",
 77 |       "guiyls",
 78 |       "cpznxh",
 79 |       "jiaoym",
 80 |       "jiedbz",
 81 |       "jio1je",
 82 |       "kemucc",
 83 |       "kehuzh",
 84 |       "kehhao",
 85 |       "zhyodm",
 86 |       "hmjsjc",
 87 |       "huobdh")
 88 | 
 89 |     /**
 90 |       * 一行读取出来，然后判断一行中部分字段是否有业务逻辑问题，如有则记录，发送到error kafka topic中
 91 |       *
 92 |       * 输入的是df，然后需要对每一行的每一个字段进行逻辑判断，满足要求则直接取值，不满足要求则改变其值，然后返回一行新的row，最后返回一个新的df
 93 |       */
 94 | 
 95 |     log.info("========================================== 开始转换df ==========================================")
 96 |     val filterTableDF = tableDF.map(newRow =>
 97 |         (newRow(0).toString, if ((!(newRow(1).toString).equals(""))) newRow(1).toString else "0",
 98 |           newRow(2).toString, if (!((newRow(3).toString).equals(""))) newRow(3).toString else "0", newRow(4).toString,
 99 |           newRow(5).toString, if (!((newRow(6).toString).equals(""))) newRow(6).toString else "0", newRow(7).toString, newRow(8).toString,
100 |           newRow(9).toString, newRow(10).toString, newRow(11).toString, newRow(12).toString)
101 |       )
102 | 
103 |     /**
104 |       * 进行二次排序
105 |       */
106 |     log.info("========================================== 开始二次排序 ==========================================")
107 | 
108 |     import org.apache.spark.sql._
109 |     val sortFilterTableDF = filterTableDF.repartition(argv.partitionNum,new Column("_10")).sortWithinPartitions("_12")
110 | 
111 |     /**
112 |       * 然后调用foreatchPartition写入对应的分区，这里是否需要自定义partitioner？
113 |       */
114 | 
115 |     log.info("========================================== 开始写入kafka ==========================================")
116 | /*
117 |     sortFilterTableDF.rdd.mapPartitions(rows => {
118 |       log.info("========================================== kafka 1 ==========================================")
119 |       rows.map(row => {
120 |         val kafkaPartition: Int = row.kehhao.toInt % argv.partitionNum
121 |         log.info("kafkaPartition===============" + kafkaPartition)
122 |         kafkaProducer.value.send(argv.topic, kafkaPartition ,row.kehhao.toString, row.toString)
123 |       })
124 |     }).collect()
125 | */
126 | 
127 |     sortFilterTableDF.foreachPartition(rows=>{
128 |       while (rows.hasNext){
129 |         val tmp = rows.next()
130 |         var kafkaPartition = 0
131 |         try {
132 |           kafkaPartition = tmp._10.trim.toInt % argv.partitionNum
133 |         }catch{
134 |           case ex: NumberFormatException =>{
135 |             println(ex.getMessage)
136 |             log.warn("异常数据："+tmp.toString())
137 |           }
138 |           case ex: Any => {
139 |             println("Unkown error!!")
140 |           }
141 |         }
142 |         //log.info("kafkaPartition===============" + kafkaPartition)
143 |         kafkaProducer.value.send(argv.topic, kafkaPartition ,tmp._10.toString, tmp.toString())
144 |       }
145 |     })
146 | 
147 |     kafkaProducer.value.producer.flush()
148 |     kafkaProducer.value.producer.close()
149 | 
150 |     spark.close()
151 |   }
152 | 
153 | }
154 | 


--------------------------------------------------------------------------------
/src/main/scala/textProject/streamingKafkaToIgnitePerformance.scala:
--------------------------------------------------------------------------------
  1 | package textProject
  2 | 
  3 | import com.beust.jcommander.JCommander
  4 | import org.apache.ignite.spark.IgniteDataFrameSettings._
  5 | import org.apache.kafka.common.serialization.StringDeserializer
  6 | import org.apache.log4j.Logger
  7 | import org.apache.spark.sql.SparkSession
  8 | import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe
  9 | import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
 10 | import org.apache.spark.streaming.kafka010.{CanCommitOffsets, HasOffsetRanges, KafkaUtils, OffsetRange}
 11 | import org.apache.spark.streaming.{Duration, StreamingContext}
 12 | import common.{Args, eventRow}
 13 | 
 14 | class streamingKafkaToIgnitePerformance {
 15 | 
 16 | }
 17 | 
 18 | object streamingKafkaToIgnitePerformance {
 19 | 
 20 |   private val log = Logger.getLogger(classOf[streamingKafkaToIgnitePerformance])
 21 | 
 22 |   def main(args: Array[String]): Unit = {
 23 | 
 24 |     /**
 25 |       * 获取输入参数与定义全局变量
 26 |       */
 27 | 
 28 |     log.info("获取输入变量")
 29 |     val argv = new Args()
 30 |     JCommander.newBuilder().addObject(argv).build().parse(args: _*)
 31 | 
 32 |     /**
 33 |       * 创建source/dest context
 34 |       */
 35 |     log.info("初始sparkcontext和kuducontext")
 36 |     val spark = SparkSession.builder().appName(argv.appName).enableHiveSupport().getOrCreate()
 37 |     spark.sparkContext.getConf.registerKryoClasses(Array(classOf[Args],classOf[eventRow]))
 38 | 
 39 |     val ssc = new StreamingContext(spark.sparkContext, Duration(argv.durationTime))
 40 |     ssc.checkpoint("/tmp/streamingToIgnite")
 41 | 
 42 |     /**
 43 |       * 初始化igniteContext
 44 |       */
 45 |     /*
 46 |         log.info("========================================== 初始化ignite ==========================================")
 47 |         val igniteContext = new IgniteContext(spark.sparkContext, argv.igniteconfxml, true)
 48 |         val fromCache: IgniteRDD[String, String] = igniteContext.fromCache(argv.cachename)
 49 |     */
 50 | 
 51 |     /**
 52 |       * 创建多线程kafka数据流
 53 |       */
 54 |     log.info("初始化kafka数据流")
 55 |     val kafkaParams = Map[String, Object](
 56 |       "bootstrap.servers" -> argv.brokers,
 57 |       "key.deserializer" -> classOf[StringDeserializer],
 58 |       "value.deserializer" -> classOf[StringDeserializer],
 59 |       "group.id" -> argv.groupid,
 60 |       "auto.offset.reset" -> "latest",
 61 |       "session.timeout.ms" -> "30000",
 62 |       "enable.auto.commit" -> (false: java.lang.Boolean)
 63 |     )
 64 |     val topics = Array(argv.topic)
 65 | 
 66 |     val stream =  KafkaUtils.createDirectStream[String, String](ssc, PreferConsistent, Subscribe[String, String](topics, kafkaParams))
 67 | 
 68 |     /**
 69 |       * 开始处理数据
 70 |       */
 71 |     log.info("开始处理数据")
 72 | 
 73 |     var offsetRanges = Array[OffsetRange]()
 74 | 
 75 |     stream.foreachRDD(rdd => {
 76 | 
 77 | 
 78 |         offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
 79 | 
 80 |         /**
 81 |           * 仅测试，输出offset， key， value
 82 |           *
 83 |           * 如果要存储offset也可以用同样的方法去做
 84 |           */
 85 |         /*
 86 |             for (record <- rdd) {
 87 |                 System.out.printf("offset = %d, key = %s, value = %s\n",
 88 |                 record.offset(), record.key(), record.value());
 89 |             }
 90 |       */
 91 | 
 92 |         val valueRDD = rdd.map(_.value().split(","))
 93 | 
 94 |         log.info("开始写入ignite")
 95 | 
 96 |         import spark.implicits._
 97 |         val df = valueRDD.map(x => eventRow(x(0).replace("(", ""), x(1), x(2), x(3), x(4), x(5), x(6), x(7), x(8), x(9),
 98 |           x(10), x(11), x(12).replace(")", ""))).toDF()
 99 | 
100 |         df.write
101 |           .format(FORMAT_IGNITE)
102 |           .option(OPTION_CONFIG_FILE, argv.igniteconfxml)
103 |           .option(OPTION_TABLE, argv.cachename)
104 |           .mode(argv.writeMode)
105 |           .option(OPTION_STREAMER_ALLOW_OVERWRITE, argv.allowOverwrite)
106 |           .option(OPTION_CREATE_TABLE_PRIMARY_KEY_FIELDS, argv.primaryKey)
107 |           .option(OPTION_CREATE_TABLE_PARAMETERS, argv.tableParameters)
108 |           .save()
109 | 
110 |         stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
111 | 
112 |     })
113 | 
114 |     // TODO 判断流是否为空，如果为空则不提交任务，节省调度时间
115 |     ssc.start()
116 |     ssc.awaitTermination()
117 | 
118 |   }
119 | 
120 | }
121 | 


--------------------------------------------------------------------------------
/src/main/scala/textProject/structuredStreamingKafkaToIgnitePerformance.scala:
--------------------------------------------------------------------------------
 1 | package textProject
 2 | 
 3 | 
 4 | import com.beust.jcommander.JCommander
 5 | import org.apache.log4j.Logger
 6 | import org.apache.spark.sql.SparkSession
 7 | import common.{Args, igniteWriter}
 8 | 
 9 | class structuredStreamingKafkaToIgnitePerformance {
10 | 
11 | }
12 | 
13 | object structuredStreamingKafkaToIgnitePerformance {
14 | 
15 |   private val log = Logger.getLogger(classOf[structuredStreamingKafkaToIgnitePerformance])
16 | 
17 |   def main(args: Array[String]): Unit = {
18 | 
19 |     /**
20 |       * 获取输入参数与定义全局变量
21 |       */
22 | 
23 |     log.info("获取输入变量")
24 |     val argv = new Args()
25 |     JCommander.newBuilder().addObject(argv).build().parse(args: _*)
26 | 
27 |     /**
28 |       * 创建source/dest context
29 |       */
30 |     log.info("初始sparkcontext")
31 |     val spark = SparkSession.builder().appName(argv.appName).enableHiveSupport().getOrCreate()
32 |     spark.sparkContext.getConf.registerKryoClasses(Array(classOf[Args]))
33 | 
34 |     val kafkaParams = Map[String, String](
35 |       "subscribe" -> argv.topic,
36 |       "kafka.bootstrap.servers" -> argv.brokers,
37 |       "group.id" -> argv.groupid,
38 |       "auto.offset.reset" -> "latest",
39 |       "session.timeout.ms" -> "30000"
40 |     )
41 | 
42 |     val records = spark.readStream.format("kafka").options(kafkaParams)
43 |       .option("enable.auto.commit", (false: java.lang.Boolean))
44 |       .option("checkpointLocation", "/tmp/structuredStreaming")
45 |       .load()
46 | 
47 |     /**
48 |       * 开始处理数据
49 |       */
50 | 
51 |     val recordsVlues = records.selectExpr("CAST(value AS STRING)")
52 | 
53 |     val igniteJdbc = "jdbc:ignite:cfg://file://" + argv.igniteconfxml
54 |     recordsVlues.writeStream.foreach(new igniteWriter(igniteJdbc)).outputMode("append").start().awaitTermination()
55 | 
56 |   }
57 | 
58 | }
59 | 
60 | 


--------------------------------------------------------------------------------