Java 定時任務技術趨勢
定時任務是每個業務常見的需求,比如每分鐘掃描超時支付的訂單,每小時清理一次資料庫歷史資料,每天統計前一天的資料並生成報表等等。
01
Java 中自帶的解決方案
Cloud Native
1
使用 Timer
建立 java.util.TimerTask 任務,在 run 方法中實現業務邏輯。通過 java.util.Timer 進行排程,支援按照固定頻率執行。所有的 TimerTask 是在同一個執行緒中序列執行,相互影響。也就是說,對於同一個 Timer 裡的多個 TimerTask 任務,如果一個 TimerTask 任務在執行中,其它 TimerTask 即使到達執行的時間,也只能排隊等待。如果有異常產生,執行緒將退出,整個定時任務就失敗。
``` import java.util.Timer; import java.util.TimerTask;
public class TestTimerTask {
public static void main(String[] args) {
TimerTask timerTask = new TimerTask() {
@Override
public void run() {
System.out.println("hell world");
}
};
Timer timer = new Timer();
timer.schedule(timerTask, 10, 3000);
}
} ```
2
使用 ScheduledExecutorService
基於執行緒池設計的定時任務解決方案,每個排程任務都會分配到執行緒池中的一個執行緒去執行,解決 Timer 定時器無法併發執行的問題,支援 fixedRate 和 fixedDelay。
``` import java.util.concurrent.Executors; import java.util.concurrent.ScheduledExecutorService; import java.util.concurrent.TimeUnit;
public class TestTimerTask {
public static void main(String[] args) {
ScheduledExecutorService ses = Executors.newScheduledThreadPool(5);
//按照固定頻率執行,每隔5秒跑一次
ses.scheduleAtFixedRate(new Runnable() {
@Override
public void run() {
System.out.println("hello fixedRate");
}
}, 0, 5, TimeUnit.SECONDS);
//按照固定延時執行,上次執行完後隔3秒再跑
ses.scheduleWithFixedDelay(new Runnable() {
@Override
public void run() {
System.out.println("hello fixedDelay");
}
}, 0, 3, TimeUnit.SECONDS);
}
} ```
02
Spring 中自帶的解決方案
Cloud Native
Springboot 中提供了一套輕量級的定時任務工具 Spring Task,通過註解可以很方便的配置,支援 cron 表示式、fixedRate、fixedDelay。
``` import org.springframework.scheduling.annotation.EnableScheduling; import org.springframework.scheduling.annotation.Scheduled; import org.springframework.stereotype.Component;
@Component @EnableScheduling public class MyTask {
/**
* 每分鐘的第30秒跑一次
*/
@Scheduled(cron = "30 * * * * ?")
public void task1() throws InterruptedException {
System.out.println("hello cron");
}
/**
* 每隔5秒跑一次
*/
@Scheduled(fixedRate = 5000)
public void task2() throws InterruptedException {
System.out.println("hello fixedRate");
}
/**
* 上次跑完隔3秒再跑
*/
@Scheduled(fixedDelay = 3000)
public void task3() throws InterruptedException {
System.out.println("hello fixedDelay");
}
} ```
Spring Task 相對於上面提到的兩種解決方案,最大的優勢就是支援 cron 表示式,可以處理按照標準時間固定週期執行的業務,比如每天幾點幾分執行。
03
業務冪等解決方案
Cloud Native
現在的應用基本都是分散式部署,所有機器的程式碼都是一樣的,前面介紹的 Java 和 Spring 自帶的解決方案,都是程序級別的,每臺機器在同一時間點都會執行定時任務。這樣會導致需要業務冪等的定時任務業務有問題,比如每月定時給使用者推送訊息,就會推送多次。
於是,很多應用很自然的就想到了使用分散式鎖的解決方案。即每次定時任務執行之前,先去搶鎖,搶到鎖的執行任務,搶不到鎖的不執行。怎麼搶鎖,又是五花八門,比如使用 DB、zookeeper、redis。
1
使用 DB 或者 Zookeeper 搶鎖
使用 DB 或者 Zookeeper 搶鎖的架構差不多,原理如下:
- 定時時間到了,在回撥方法裡,先去搶鎖。
- 搶到鎖,則繼續執行方法,沒搶到鎖直接返回。
- 執行完方法後,釋放鎖。
示例程式碼如下:
``` import org.springframework.scheduling.annotation.EnableScheduling; import org.springframework.scheduling.annotation.Scheduled; import org.springframework.stereotype.Component;
@Component @EnableScheduling public class MyTask { / * 每分鐘的第30秒跑一次 / @Scheduled(cron = "30 * * * ?") public void task1() throws Exception { String lockName = "task1"; if (tryLock(lockName)) { System.out.println("hello cron"); releaseLock(lockName); } else { return; } }
private boolean tryLock(String lockName) {
//TODO
return true;
}
private void releaseLock(String lockName) {
//TODO
}
} ```
當前的這個設計,仔細一點的同學可以發現,其實還是有可能導致任務重複執行的。比如任務執行的非常快,A 這臺機器搶到鎖,執行完任務後很快就釋放鎖了。B 這臺機器後搶鎖,還是會搶到鎖,再執行一遍任務。
2
使用 redis 搶鎖
使用 redis 搶鎖,其實架構上和 DB/zookeeper 差不多,不過 redis 搶鎖支援過期時間,不用主動去釋放鎖,並且可以充分利用這個過期時間,解決任務執行過快釋放鎖導致任務重複執行的問題,架構如下:
示例程式碼如下:
``` @Component @EnableScheduling public class MyTask { / * 每分鐘的第30秒跑一次 / @Scheduled(cron = "30 * * * ?") public void task1() throws InterruptedException { String lockName = "task1"; if (tryLock(lockName, 30)) { System.out.println("hello cron"); releaseLock(lockName); } else { return; } }
private boolean tryLock(String lockName, long expiredTime) {
//TODO
return true;
}
private void releaseLock(String lockName) {
//TODO
}
} ```
看到這裡,可能又會有同學有問題,加一個過期時間是不是還是不夠嚴謹,還是有可能任務重複執行?
——的確是的,如果有一臺機器突然長時間的 fullgc,或者之前的任務還沒處理完(Spring Task 和 ScheduledExecutorService 本質還是通過執行緒池處理任務),還是有可能隔了 30 秒再去排程任務的。
3
使用 Quartz
Quartz [ 1] 是一套輕量級的任務排程框架,只需要定義了 Job(任務),Trigger(觸發器)和 Scheduler(排程器),即可實現一個定時排程能力。支援基於資料庫的叢集模式,可以做到任務冪等執行。
Quartz 支援任務冪等執行,其實理論上還是搶 DB 鎖,我們看下 quartz 的表結構:
其中,QRTZ_LOCKS 就是 Quartz 叢集實現同步機制的行鎖表,其表結構如下:
``
--QRTZ_LOCKS表結構
CREATE TABLE
QRTZ_LOCKS(
LOCK_NAMEvarchar(40) NOT NULL,
PRIMARY KEY (
LOCK_NAME`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
--QRTZ_LOCKS記錄 +-----------------+ | LOCK_NAME | +-----------------+ | CALENDAR_ACCESS | | JOB_ACCESS | | MISFIRE_ACCESS | | STATE_ACCESS | | TRIGGER_ACCESS | +-----------------+ ```
可以看出 QRTZ_LOCKS 中有 5 條記錄,代表 5 把鎖,分別用於實現多個 Quartz Node 對 Job、Trigger、Calendar 訪問的同步控制。
04
開源任務排程中介軟體
Cloud Native
上面提到的解決方案,在架構上都有一個問題,那就是每次排程都需要搶鎖,特別是使用 DB 和 Zookeeper 搶鎖,效能會比較差,一旦任務量增加到一定的量,就會有比較明顯的排程延時。還有一個痛點,就是業務想要修改排程配置,或者增加一個任務,得修改程式碼重新發布應用。
於是開源社群湧現了一堆任務排程中介軟體,通過任務排程系統進行任務的建立、修改和排程,這其中國內最火的就是 XXL-JOB 和 ElasticJob。
1
ElasticJob
ElasticJob [ 2] 是一款基於 Quartz 開發,依賴 Zookeeper 作為註冊中心、輕量級、無中心化的分散式任務排程框架,目前已經通過 Apache 開源。
ElasticJob 相對於 Quartz 來說,從功能上最大的區別就是支援分片,可以將一個任務分片引數分發給不同的機器執行。架構上最大的區別就是使用 Zookeeper 作為註冊中心,不同的任務分配給不同的節點排程,不需要搶鎖觸發,效能上比 Quartz 上強大很多,架構圖如下:
開發上也比較簡單,和 springboot 結合比較好,可以在配置檔案定義任務如下:
elasticjob:
regCenter:
serverLists: localhost:2181
namespace: elasticjob-lite-springboot
jobs:
simpleJob:
elasticJobClass: org.apache.shardingsphere.elasticjob.lite.example.job.SpringBootSimpleJob
cron: 0/5 * * * * ?
timeZone: GMT+08:00
shardingTotalCount: 3
shardingItemParameters: 0=Beijing,1=Shanghai,2=Guangzhou
scriptJob:
elasticJobType: SCRIPT
cron: 0/10 * * * * ?
shardingTotalCount: 3
props:
script.command.line: "echo SCRIPT Job: "
manualScriptJob:
elasticJobType: SCRIPT
jobBootstrapBeanName: manualScriptJobBean
shardingTotalCount: 9
props:
script.command.line: "echo Manual SCRIPT Job: "
實現任務介面如下:
``` @Component public class SpringBootShardingJob implements SimpleJob {
@Override
public void execute(ShardingContext context) {
System.out.println("分片總數="+context.getShardingTotalCount() + ", 分片號="+context.getShardingItem()
+ ", 分片引數="+context.getShardingParameter());
}
} ```
執行結果如下:
分片總數=3, 分片號=0, 分片引數=Beijing
分片總數=3, 分片號=1, 分片引數=Shanghai
分片總數=3, 分片號=2, 分片引數=Guangzhou
同時,ElasticJob 還提供了一個簡單的 UI,可以檢視任務的列表,同時支援修改、觸發、停止、生效、失效操作。
遺憾的是,ElasticJob 暫不支援動態建立任務。
2
XXL-JOB
XXL-JOB [ 3] 是一個開箱即用的輕量級分散式任務排程系統,其核心設計目標是開發迅速、學習簡單、輕量級、易擴充套件,在開源社群廣泛流行。
XXL-JOB 是 Master-Slave 架構,Master 負責任務的排程,Slave 負責任務的執行,架構圖如下:
XXL-JOB 接入也很方便,不同於 ElasticJob 定義任務實現類,是通過@XxlJob 註解定義 JobHandler。
``` @Component public class SampleXxlJob { private static Logger logger = LoggerFactory.getLogger(SampleXxlJob.class);
/**
* 1、簡單任務示例(Bean模式)
*/
@XxlJob("demoJobHandler")
public ReturnT<String> demoJobHandler(String param) throws Exception {
XxlJobLogger.log("XXL-JOB, Hello World.");
for (int i = 0; i < 5; i++) {
XxlJobLogger.log("beat at:" + i);
TimeUnit.SECONDS.sleep(2);
}
return ReturnT.SUCCESS;
}
/**
* 2、分片廣播任務
*/
@XxlJob("shardingJobHandler")
public ReturnT<String> shardingJobHandler(String param) throws Exception {
// 分片引數
ShardingUtil.ShardingVO shardingVO = ShardingUtil.getShardingVo();
XxlJobLogger.log("分片引數:當前分片序號 = {}, 總分片數 = {}", shardingVO.getIndex(), shardingVO.getTotal());
// 業務邏輯
for (int i = 0; i < shardingVO.getTotal(); i++) {
if (i == shardingVO.getIndex()) {
XxlJobLogger.log("第 {} 片, 命中分片開始處理", i);
} else {
XxlJobLogger.log("第 {} 片, 忽略", i);
}
}
return ReturnT.SUCCESS;
}
} ```
XXL-JOB 相較於 ElasticJob,最大的特點就是功能比較豐富,可運維能力比較強,不但支援控制檯動態建立任務,還有排程日誌、執行報表等功能。
XXL-JOB 的歷史記錄、執行報表和排程日誌,都是基於資料庫實現的:
由此可以看出,XXL-JOB 所有功能都依賴資料庫,且排程中心不支援分散式架構,在任務量和排程量比較大的情況下,會有效能瓶頸。不過如果對任務量級、高可用、監控報警、視覺化等沒有過高要求的話,XXL-JOB 基本可以滿足定時任務的需求。
05
企業級解決方案
Cloud Native
開源軟體只能提供基礎的排程能力,在監管控上的能力一般都比較弱。比如日誌服務,業界往往使用 ELK 解決方案;簡訊報警,需要有簡訊平臺;監控大盤,現在主流的解決方案是 Prometheus;等等。企業想要有這些能力,不但需要額外的開發成本,還需要昂貴的資源成本。
另外使用開源軟體也伴隨著穩定性的風險,就是出了問題沒人能處理,想要反饋到社群等社群處理,這個鏈路太長了,早就產生故障了。
阿里雲任務排程 SchedulerX [ 4] 是阿里巴巴自研的基於 Akka 架構的一站式任務排程平臺,相容開源 XXL-JOB、ElasticJob、Quartz(規劃中),支援 Cron 定時、一次性任務、任務編排、分散式跑批,具有高可用、視覺化、可運維、低延時等能力,自帶企業級監控大盤、日誌服務、簡訊報警等服務。
1
優勢
安全防護
- 多層次安全防護:支援 HTTPS 和 VPC 訪問,同時還有阿里雲的多層安全防護,防止惡意攻擊。
- 多租戶隔離機制:支援多地域、名稱空間和應用級別的隔離。
- 許可權管控:支援控制檯讀寫的許可權管理,客戶端接入的鑑權。
企業級高可用
SchedulerX2.0 採用高可用架構,任務多備份機制,經歷阿里集團多年雙十一、容災演練,可以做到任意一個機房掛了,任務排程都不會收到影響。
商業級報警運維
- 報警:支援郵件、釘釘、簡訊、電話,(其他報警方式在規劃中)。支援任務失敗、超時、無可用機器報警。報警內容可以直接看出任務失敗的原因,以釘釘機器人為例。
- 運維操作:原地重跑、重刷資料、標記成功、檢視堆疊、停止任務、指定機器等。
豐富的視覺化
schedulerx 擁有豐富的視覺化能力,比如:
- 使用者大盤
- 檢視任務歷史執行記錄
- 檢視任務執行日誌
- 檢視任務執行堆疊
- 檢視任務操作記錄
相容開源
Schedulerx 相容開源 XXL-JOB、ElasticJob、Quartz(規劃中),業務不需要改一行程式碼,即可以將任務託管在 SchedulerX 排程平臺,享有企業級視覺化和報警的能力。
Spring 原生
SchedulerX 支援通過控制檯和 API 動態建立任務,也支援 Spring 宣告式任務定義,一份任務配置可以拿到任何環境一鍵啟動,配置如下:
spring:
schedulerx2:
endpoint: acm.aliyun.com #請填寫不同regin的endpoint
namespace: 433d8b23-06e9-xxxx-xxxx-90d4d1b9a4af #region內全域性唯一,建議使用UUID生成
namespaceName: 學仁測試
appName: myTest
groupId: myTest.group #同一個名稱空間下需要唯一
appKey: [email protected] #應用的key,不要太簡單,注意保管好
regionId: public #填寫對應的regionId
aliyunAccessKey: xxxxxxx #阿里雲賬號的ak
aliyunSecretKey: xxxxxxx #阿里雲賬號的sk
alarmChannel: sms,ding #報警通道:簡訊和釘釘
jobs:
simpleJob:
jobModel: standalone
className: com.aliyun.schedulerx.example.processor.SimpleJob
cron: 0/30 * * * * ? # cron表示式
jobParameter: hello
overwrite: true
shardingJob:
jobModel: sharding
className: ccom.aliyun.schedulerx.example.processor.ShardingJob
oneTime: 2022-06-02 12:00:00 # 一次性任務表示式
jobParameter: 0=Beijing,1=Shanghai,2=Guangzhou
overwrite: true
broadcastJob: # 不填寫cron和oneTime,表示api任務
jobModel: broadcast
className: com.aliyun.schedulerx.example.processor.BroadcastJob
jobParameter: hello
overwrite: true
mapReduceJob:
jobModel: mapreduce
className: com.aliyun.schedulerx.example.processor.MapReduceJob
cron: 0 * * * * ?
jobParameter: 100
overwrite: true
alarmUsers: #報警聯絡人
user1:
userName: 張三
userPhone: 12345678900
user2:
userName: 李四
ding: http://oapi.dingtalk.com/robot/send?access_token=xxxxx
分散式跑批
SchedulerX 提供了豐富的分散式模型,可以處理各種各樣的分散式業務場景。包括單機、廣播、分片、 MapReduce [ 5] 等,架構如下:
SchedulerX 的 MapReduce 模型,簡單幾行程式碼,就可以將海量任務分散式到多臺機器跑批,相對於大資料跑批來說,具有速度快、資料安全、成本低、簡單易學等特點。
任務編排
SchedulerX 通過工作流進行任務編排,並且提供了一個視覺化的介面,操作簡單,拖拖拽拽即可配置一個工作流。詳細的任務狀態圖能一目瞭然看到下游任務為什麼沒跑,方便定位問題。
可搶佔的任務優先順序佇列
常見場景是夜間離線報表業務,比如很多報表任務是晚上 1、2 點開始跑,要控制應用最大併發的任務數量(否則業務扛不住),達到併發上限的任務會在佇列中等待。同時要求早上 9 點前必須把 KPI 報表跑出來,可以設定 KPI 任務高優先順序,會搶佔低優先順序任務優先排程。
SchedulerX 支援可搶佔的任務優先順序佇列,可以在控制檯動態配置:
2
Q&A
- Kubernetes 應用可以接入 SchedulerX 嗎?
——可以的,無論是物理機、容器、還是 Kubernetes pod,都可以接入 SchedulerX。
- 我的應用不在阿里雲上,可否使用 SchedulerX?
——可以的,任何雲平臺或者本地機器,只要能訪問公網,都可以接入 SchedulerX。