简介:Inthispaper,wepresentadetectiontechniqueofand-parallelisminlogicprograms.Thedetectionconsistsofthreephases:analysisofentrymodes,derivationofexitmodesanddeterminationofexecutiongraphexpressions.Comparedwithothertechniques^[2,4,5],ourapproachwiththecompile-timeprogram-leveldata-dependenceanalysisoflogicprograms,canefficientlyexploitand-parallelisminlogicprograms.Twoprecompilers,basedonourtechniqueandDeGroot'sapproach^[3]respectively,havebeenimplementedinSES-PIMsystem^[12],ThroughcompilingandrunningsometypicalbenchmarksinSES-PIM,weconcludethatourtechniquecan,inmostcases,exploitasmuchand-parallelismasthedynamicapproach^[13]doesunder“produces-consumer”scheme,andneedslessdynamicoverheadwhileexploitingmoreandparallelismthanDeGroot'sapproachdoes.
简介:Inthispaper,anewlooptransformationisproposedthatcanexpolitparalleisminloopswhichcannotbefoundbytraditionalmethods.Thenthemethodisextendedtoshowhowtoachievemaximumspeedupofloopsifthereareinfiniteprocessorsandhowtobalancetheworkloadofparallelsectionsinloopsifthereisfixednumberofprocessors.
简介:平行程序与不同线级的并行(TLP)由代码节的系列组成。作为结果,在一个平行程序的一个线程例如在CUDA程序的一个GPU内核,仍然包含顺序的代码和平行的环,是相当普通的。为了利用如此的平行,循环,最近的开普勒·恩威迪亚体系结构介绍动态并行,它允许一个GPU线程开始另一个GPU内核,从而减少从一个中央处理器运行内核的开销。与动态并行,然而,一个父母线程能仅仅通过全球存储器与它的孩子线程交流,运行GPU内核的开销甚至在GPU以内是重要的。在这份报纸,我们首先学习包含这些基准没有的平行的环,和热点的一套GPGPU基准一个很高的环计数或TLP的高度。因而,用动态并行利用如此的平行的环的好处也被限制抵消它的开销。我们然后介绍我们的建议答案在CUDA利用嵌套的并行,叫作CUDA-NP。与CUDA-NP,当一个GPU程序开始时,我们开始启用线程的一个高数字,并且使用控制流动为不同代码节激活线程的不同数字。我们用一条基于指令的编译器途径实现我们的建议CUDA-NP框架。为一个GPU核,一个应用程序开发者仅仅需要为可并行化的代码节增加象OpenMP一样编译指示。然后,我们的CUDA-NP编译器自动地产生优化GPU内核。它支持减小和扫描原语,探索不同方法散布平行的环重复进线程,并且高效地管理在薄片上资源。我们的实验证明为一套GPGPU基准,它已经被优化了并且包含嵌套的并行,我们的建议CUDA-NP框架进一步平均到多达6.69次和2.01次改进表演。