oalib

OALib Journal期刊

ISSN: 2333-9721

费用:99美元

投稿

时间不限

2017 ( 2 )

2016 ( 490 )

2015 ( 17181 )

2014 ( 17406 )

自定义范围…

匹配条件: “张云泉” ,找到相关结果约261509条。
列表显示的所有文章,均可免费获取
第1页/共261509条
每页显示
基于横向局部性的多核计算模型
袁 良,
计算机科学 , 2012,
Abstract: 片内多核已成为延长摩尔定律的方式,并行算法设计、编程模型、编译器和运行时系统都需要利用计算模型进行分析。现有多核模型对线程间共享缓存等资源的竞争已有较精确的模型,但是对于线程间数据共享考虑较少。提出线程间共享缓存的横向局部性和任务共享率概念,基于此扩展串行存储层次模型ram(h),提出考虑任务共享率的多核并行计算模型mram(h)。
新疆肉苁蓉抗自由基损伤的研究
,林安平,
中国中药杂志 , 1994,
Abstract: 肉苁蓉对O3造成的小鼠体力、御寒能力和对缺氧的耐受力降低,血浆及肝、脑脂质过氧化物含量增加,脑B型单胺氧化酶活力提高,血清超氧化物歧化酶活力降低均有明显抑制作用。
利用Kolmogorov-Smirnov统计的区域化图像分割
,,李玉
中国图象图形学报 , 2015, DOI: 10.11834/jig.20150510
Abstract: 目的为了在未知或无法建立图像模型的情况下,实现统计图像分割,提出一种结合Voronoi几何划分、K-S(Kolmogorov-Smirnov)统计以及M-H(Metropolis-Hastings)算法的图像分割方法.方法首先利用Voronoi划分将图像域划分成不同的子区域,而每个子区域为待分割同质区域的一个组成部分,并利用K-S统计定义类属异质性势能函数,然后应用非约束吉布斯表达式构建概率分布函数,最后采用M-H算法进行采样,从而实现图像分割.结果采用本文算法,分别对模拟图像、合成图像、真实光学和SAR图像进行分割实验,针对模拟图像和合成图像,分割结果精度均达到98%以上,取得较好的分割结果.结论提出基于区域的图像分割算法,由于该算法中图像分割模型的建立无需原先假设同质区域内像素光谱测度的概率分布,因此提出算法具有广泛的适用性.为未知或无法建立图像模型的统计图像分割提供了一种新思路.
openblas:龙芯3acpu的高性能blas库
张先轶?,王茜?,
软件学报 , 2011,
Abstract: blas是科学计算中最基础的数学库之一,各cpu厂商都推出了针对各自cpu的优化blas库.龙芯cpu是中国科学院计算技术研究所自主研制的通用cpu,目前已推出了龙芯3号系列.介绍了基于gotoblas2-1.13bsd版的开源项目openblas,针对龙芯3acpu的优化工作.在blas3级函数的单线程优化上,运用了分块,手工核心汇编,使用龙芯3a扩展指令、汇编指令重排等技术.blas3级函数平均性能高于gotoblas和atlas75%和17%.其中,双精度函数高于gotoblas和atlas103%和36%.在blas3级函数并行化方面,采用数据缓冲区交错布局等技术,减少多线程对共享l2cache的争抢.openblasblas3级函数的4线程并行加速比达到3.47.4线程blas3级函数平均性能高于gotoblas和atlas69%和34%,其中,双精度函数高于gotoblas和atlas89%和55%.
负载平衡无关的并行程序最适处理器网格选择
,施巍松?
软件学报 , 2000,
Abstract: 用户在编写并行程序时,通常是把物理处理器看成逻辑的处理器(进程)网格,以便于算法的实现.随着用户可用处理器的不断增多,可选择的网格形状也随之增加,如何为基于消息传递的并行程序选择合适的、能发挥出并行机潜在性能的处理器网格形状,是一个迫切需要解决的问题.在提出基于通信点概念的最小度数通信点集合法之后,通过对并行程序通信模式的分析,试图解决与负载平衡无关的并行程序的最适处理器网格选择问题.通过对scalapack软件包中的一个并行测试程序——并行cholesky(对称正定矩阵分解)通信点集合度的分析,此方法成功地选择了最适处理器网格形状,并与实验结果相一致.
并行计算通信库测试方法研究及实践
熊玉庆?,
软件学报 , 2000,
Abstract: 并行计算通信库的测试在并行计算系统中起着重要的作用.对通信库的测试一般都是通过设计一些测试程序对库的各个或几个部分分别进行单独隔离测试.但是有许多库中的错误用这种隔离测试方法测不出来,只有当库的多个部分以某种复杂的、有机的方式组合运行时才会暴露出来.而这种复杂的、有机的组合方式,从设计库的测试角度看很难形成.提出两种新的测试方法,根据通信库结构的分层特性,利用可移植的上层库的测试程序来测试下层库.上层库的测试程序也可看做是下层库的应用程序,但与一般的下层库应用程序不同,它几乎覆盖了下层库的各个部分,且有机地将它们组合起来,运行时形成某种复杂的形态,而仅用下层库的测试程序往往达不到这种形态.这样,逃过下层库测试程序的错误就可能暴露出来.
国产百万亿次机群系统alltoall性能测试与分析
饶立,,李玉成?
计算机科学 , 2010,
Abstract: 随着高性能计算机的应用和发展,并行应用程序所使用的处理器数越来越多,进程间的通信量也不断增多,这对应用程序的性能有很大影响。在采用一种快速傅里叶变换hff7对曙光5000a进行性能测试时发现,mpi集合通信函数mpialltoall的巨大通信开销是并行程序设计的瓶颈。为此,对现有主流alltoall算法在曙光5000a和深腾700。上进行性能测试与分析,以期对未来的alltoall算法的优化工作做出贡献。利用不同消息长度和不同进程数测试了alltoall函数多种算法的性能,这些算法包括二维网格算法、三维网格算法、i3ruck算法、原始算法、成对交换算法、递归倍增算法、环算法以及工am/mpi中的简单算法等。实验结果表明:消息长度较小时,在曙光5000a上采用原始算法和i3ruck算法的性能较好,而在深腾700。上用时较少的算法是简单算法和i3ruck算法;对于长消息,曙光5000a上最优的算法是环算法,深腾7000上成对交换性能最优。
基于gpu的非标记定量软件quantwiz并行化实现
费辉,,王靖?
计算机科学 , 2012,
Abstract: quantwiz是一款基于质谱的非标记定量软件,可很好地应用于定量蛋白质组学。实验数据的日益增大,使定量的计算量巨大,耗费时间长。gpu以几百gflops甚至上tflops的运算能力,为定量蛋白质组学这样的计算密集型应用提供了良好的加速方案。对quantwiz软件做了深入的研究与分析,找到了软件性能的热点模块所在,提出了该软件在gpu上的加速方案—upu-quantwiz,并进行了实现。性能测试显示,在tesla0106。上,该方案的平均加速比达到9.66倍,得到了良好的加速效果。同时,该方案还可以扩展到两块及以上的gpu上,具有良好的可扩展性。
基于julia语言的并行计算方法初探
巩庆奎?,常有?,张先轶?,
计算机科学 , 2015, DOI: 10.11896/j.issn.1002-137X.2015.01.009
Abstract: julia语言是一种在mit许可证下免费的开发中脚本语言(beta0.2.0),目标是降低并行程序的编程难度。基于julia现有语法机制,逐步增强julia语法特性,结合公交线路的平均走行时间统计案例,研究julia并行编程框架和程序逐步精化的方法。julia程序支持本地多核心/多cpu并行计算。为充分发挥实验平台的计算潜能,尝试了提高julia程序计算性能的策略。对案例程序的实验分析表明,julia并行程序在管理计算核心方面耗费了一定的工作时间,但随着问题规模的增大,其影响可逐渐忽略,从而可获得接近线性的加速比。
基于opencl的图像模糊化算法优化研究
,,龙国平?
计算机科学 , 2012,
Abstract: 现代cpu一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(cuda,opencl)都定义了特定程序设计接口(cuda的纹理内存,c)pencl的图像对象)以便图像应用能利用相关硬件支持。以典型图像模糊化处理算法在amd平台cpu的优化为例,探讨了〔)pcnci、的图像对象在图像算法优化上的适用范围,尤其是分析了其相对于更通用的基于全局内存加片上局部存储进行性能优化的方法的优劣。实验结果表明,图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时才能带来较好的性能改善,其余情况采用全局内存加局部存储都能获得较好性能。优化后的算法性能相对于精心实现的cpu版加速比为200-}-1000;相对于nvidianpp库相应函数的性能加速比为1.3~。
第1页/共261509条
每页显示


Home
Copyright © 2008-2017 Open Access Library. All rights reserved.