详解Java中的ForkJoin
作者:越走越远的风
ForkJoin简介
Fork/Join框架是Java 7提供的一种用于并行执行任务的框架,它将大任务分解为若干个小任务,并行执行这些小任务,最终通过合并每个小任务的结果得到大任务的结果。
Fork/Join采用的是分而治之的基本思想,分而治之就是将一个复杂的任务,按照规定的阈值划分成多个简单的小任务,然后将这些小任务的结果再进行汇总返回,得到最终的任务。
并行和并发的区别
并行和并发是计算机科学中的两个概念,它们之间有一些相似之处,但也有明显的区别。
并行是指多个处理器或者是多核的处理器同时处理多个不同的任务。并行可以在多处理器系统中实现,利用每个处理机来处理一个可并发执行的程序,从而实现多个程序的同时执行。在并行执行时,每个处理器可以同时执行多个程序,从而提高计算效率。
并发是指逻辑上的同时发生(即 true 的同时性),而并行是物理上的同时发生。在多道程序环境下,并发性是指在一段时间内宏观上有多个程序在同时运行,但在单处理机系统中,每一时刻却仅能有一道程序执行,故微观上这些程序只能是分时地交替执行。
简而言之,并行是指多个处理器或多核处理器同时处理多个任务,而并发是指在同一时间内多个任务同时发生。
工作窃取算法
工作窃取算法是指某个线程从其他队列里窃取任务来执行。当工作队列中有空闲任务时,就将任务从原线程的队列中窃取过来,执行完成后再将结果返回给原线程。这样就保证了原线程不会一直等待空闲任务,从而提高了程序的效率。
Fork/Join框架使用ForkJoinPool这个特殊的线程池来处理任务之间有依赖的情况,其实现了“work-stealing”算法(工作量窃取算法)并执行ForkJoinTask对象。ForkJoinPool保持多个线程,其线程数量默认为机器cpu核心数。每个线程都有一个特殊类型的deques队列(双端队列),放置该线程的所有任务,而不是所有线程共享一个公共队列。
每个线程都会保证将自己队列中的任务执行完,当自己的任务执行完成之后,在去看其他线程的任务队列中是否有未处理完的任务,如果有则会帮助其他线程执行。
这时双端队列的优势就体现出来了,被窃取的任务只会从队列的头部获取任务,而正常处理的线程每次都是从队列的尾部获取任务。
求1到1亿的和
package com.fandf.test.forkjoin; import lombok.extern.slf4j.Slf4j; import org.springframework.util.StopWatch; import java.util.concurrent.ForkJoinPool; import java.util.concurrent.Future; import java.util.concurrent.RecursiveTask; /** * @author fandongfeng */ @Slf4j public class ForkJoinDemo extends RecursiveTask<Long> { /** * 小任务的大小阈值 */ public static final int TASK_SIZE = 100000; /** * 开始数字 */ private final Long start; /** * 结束数字 */ private final Long end; public ForkJoinDemo(Long start, Long end) { this.start = start; this.end = end; } @Override protected Long compute() { long sum = 0L; //如果任务足够小就计算任务 boolean canCompute = (end - start) <= TASK_SIZE; if (canCompute) { for (Long i = start; i <= end; i++) { sum += i; } } else { // 如果任务大于阈值,就分裂成两个子任务计算 long middle = (start + end) / 2; ForkJoinDemo leftTask = new ForkJoinDemo(start, middle); ForkJoinDemo rightTask = new ForkJoinDemo(middle + 1, end); // 执行子任务 leftTask.fork(); rightTask.fork(); // 等待任务执行结束合并其结果 Long leftResult = leftTask.join(); Long rightResult = rightTask.join(); // 合并子任务 sum = leftResult + rightResult; } return sum; } public static void main(String[] args) { ForkJoinPool forkjoinPool = new ForkJoinPool(); //生成一个计算任务,计算1+2+3+4+...+100000000 ForkJoinDemo task = new ForkJoinDemo(1L, 100000000L); StopWatch stopWatch = new StopWatch(); stopWatch.start(); //执行一个任务 Future<Long> result = forkjoinPool.submit(task); try { System.out.println("result:" + result.get()); } catch (Exception e) { log.error("exception", e); } stopWatch.stop(); System.out.println("总耗时:" + stopWatch.getTotalTimeMillis() + "毫秒"); System.out.println("getParallelism:" + forkjoinPool.getParallelism()); System.out.println("getPoolSize:" + forkjoinPool.getPoolSize()); } }
输出结果
result:5000000050000000
总耗时:330毫秒
getParallelism:6
getPoolSize:7
ForkJoin框架实现
ForkJoinPool
ForkJoinPool
是用于运行ForkJoinTasks
的线程池,实现了Executor
接口
public ForkJoinPool() { this(Math.min(MAX_CAP, Runtime.getRuntime().availableProcessors()), defaultForkJoinWorkerThreadFactory, null, false); } public ForkJoinPool(int parallelism, ForkJoinWorkerThreadFactory factory, UncaughtExceptionHandler handler, boolean asyncMode) { this(checkParallelism(parallelism), checkFactory(factory), handler, asyncMode ? FIFO_QUEUE : LIFO_QUEUE, "ForkJoinPool-" + nextPoolId() + "-worker-"); checkPermission(); }
ForkJoinPool构造方法有四个参数:
- parallelism:期望并发数。默认会使用
Runtime.getRuntime().availableProcessors()
的值 - factory:创建ForkJoin工作线程的工厂,默认为defaultForkJoinWorkerThreadFactory
- handler:执行任务时遇到不可恢复的错误时的处理程序,默认为null
- asyncMode:工作线程获取任务使用FIFO(先进先出)模式还是LIFO(后进先出)模式,默认为LIFO
ForkJoinTask
ForkJoinTask
是对于在ForkJoinPool
中运行任务的抽象类定义。
JDK为我们提供了三种特定类型的ForkJoinTask父类供我们自定义时继承使用。
- RecursiveAction:子任务不返回结果
- RecursiveTask:子任务返回结果
- CountedCompleter:在任务完成执行后会触发执行
ForkJoinWorkerThread
ForkJoinPool
中用于执行ForkJoinTask
的线程。
ForkJoinPool实现了Executor接口。但是和我们常用的ThreadPoolExecutor又有一些区别。
如果使用ThreadPoolExecutor来实现上面分治任务,那么每个子任务都需要创建一个线程,如果子任务的数量很大,假设有上万个,那么使用ThreadPoolExecutor创建出上万个线程,这显然是不可行也不合理的;
而ForkJoinPool在处理任务时,并不会按照任务开启线程,而是按照指定的期望并行数量创建线程。在每个线程工作时,如果需要继续拆分子任务,则会将当前任务放入ForkJoinWorkerThread的任务队列中,递归处理直到最外层的任务。
ForkJoinTask启动方式
- 异步执行
forkjoinPool.execute(task);无返回结果 - 同步执行
forkjoinPool.invoke(task);等待返回结果 - 异步执行,通过Future获取结果
forkjoinPool.submit(task);
总结
在使用Fork/Join框架时,需要注意以下几点:
- 必须首先创建一个ForkJoinTask对象。
- 在分发任务时,需要注意线程安全问题,防止多个线程同时访问共享资源。可以使用synchronized关键字或者Lock对象来保证线程安全。
- 在合并结果时,也需要注意线程安全问题,可以使用CountDownLatch对象来确保每个Fork执行完成后才能提交结果。
- 在使用Fork/Join框架时,需要考虑算法的效率和性能问题。可以使用Cache技术来减少不必要的计算,使用join策略来合并结果等。
总之,Fork/Join框架是一种非常有用的并行计算框架,可以大大提高程序的执行效率和并发能力。
以上就是详解Java中的ForkJoin的详细内容,更多关于Java ForkJoin的资料请关注脚本之家其它相关文章!