Academic literature on the topic 'CUDA (Arquitectura da computação)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'CUDA (Arquitectura da computação).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "CUDA (Arquitectura da computação)"

1

Neves, Isabel Clara. "Contribuição de Horst Rittel para a abordagem científica ao projecto no início da era computacional." PARC Pesquisa em Arquitetura e Construção 6, no. 1 (2015): 39. http://dx.doi.org/10.20396/parc.v6i1.8635025.

Full text
Abstract:
Este artigo desenvolve uma análise sobre parte do contexto cultural e tecnológico que contribuiu para o surgimento do pensamento e prática computacional na arquitectura. Pretende-se questionar e demonstrar a relevância da contribuição de Horst Rittel para a abordagem científica ao Projecto no início da era computacional, durante a sua colaboração como professor na Hochschule für Gestaltung - Ulm, Alemanha, no contexto da análise de métodos científicos associados ao projecto, ainda sem a utilização de computadores. Argumenta-se que nesta Escola, através das ideias desenvolvidas por professores tal como Horst Rittel, criaram-se fundamentos que estão na base das posteriores abordagens computacionais na arquitectura, as quais mais tarde vieram a utilizar a computação não como uma ferramenta de desenho geométrico, mas sim como uma ferramenta de desenho computacional. Algumas destas matérias viriam a ser investigadas e ampliadas anos depois em centros de investigação académicos de departamentos de Arquitectura e Design. Para dar resposta à questão levantada durante a investigação do presente artigo, procedeu-se à análise do material da biblioteca da Escola, encerrada em 1968, que se encontra armazenado no Arquivo e Museu da HfG-Ulm, sendo que a recolha de material original das aulas das disciplinas científicas que Horst Rittel leccionava, proveniente desse Arquivo, foi o eixo metodológico fulcral do presente trabalho. Esta investigação contribuiu assim para clarificar alguns territórios não tão investigados, servindo esta de complemento a uma série de outras investigações que analisam as relações e sinergias entre protagonistas e instituições, que conformaram uma perspectiva computacional na arquitetura nos anos 60. Finalmente, este artigo contribuiu assim para cartografar e estudar o papel do matemático e investigador Horst Rittel, suas ideias distintivas, pelo modo como definiram uma nova abordagem ao projecto, marcadamente influenciada por métodos científicos.
APA, Harvard, Vancouver, ISO, and other styles
2

Silva, Flaviana dos Santos, Alisandra Cavalcante Fernandes de Almeida, and Katia Alexandra Godoi e Silva. "O DESENVOLVIMENTO DO PENSAMENTO COMPUTACIONAL COM A INTEGRAÇÃO DO SOFTWARE SCRATCH NO ENSINO SUPERIOR." Revista Observatório 5, no. 1 (2019): 276–98. http://dx.doi.org/10.20873/uft.2447-4266.2019v5n1p276.

Full text
Abstract:
O objetivo deste artigo é analisar a integração do software Scratch para promover o desenvolvimento do pensamento computacional no ensino superior. Para tal, foram explorados os conteúdos da Economia Doméstica e da Educação Financeira como cenário no ensino dos conceitos básicos de Computação, como os algoritmos, a linguagem e arquitetura da programação, atrelados à resolução de problemas do cotidiano, destinados à formação do cidadão. O referencial teórico está articulado com os conceitos das Tecnologias Digitais de Informação e Comunicação (TDIC) na Educação e do Pensamento Computacional, além dos conteúdos específicos das áreas da Economia Doméstica e da Educação Financeira. A investigação é de natureza qualitativa e foi aplicada nos cursos de Bacharelado em Economia e de Engenharia Civil, em Universidade do Sul da Bahia, no ano de 2017. A metodologia englobou técnicas do estudo exploratório, estudo empírico e estudo de desenvolvimento, com o intuito de elaborar atividades contextualizadas no software Scratch, que envolvem os temas da Economia Doméstica e da Educação Financeira. Foi evidenciada, assim, a construção dos artefatos utilizando a linguagem de programação do Scratch e das TDIC, de forma a propiciar a aprendizagem dos conceitos computacionais e a disseminação do conceito de pensamento computacional nos cursos de ensino superior.
 
 PALAVRAS-CHAVE: Pensamento Computacional; Economia Doméstica e Financeira; Software Scratch; Tecnologias Digitais de Informação e Comunicação (TDIC)
 
 
 ABSTRACT
 This article aims to analyze the integration of software Scratch to promote the development of computational thinking at higher education. For such, the contents of Domestic Economy and Financial Education were explored as scenario at the instruction of Computation basic concepts, being them algorithms, speech and programming architecture tied to the resolution of daily problems, allowing the citizen's formation. The theoretical referential is articulated with Information and Communication Digital Technologies (ICDT) at Education and Computational Thinking concepts, apart from specific contents from Domestic Economy and Financial Education area. The investigation is of qualitative nature and was made at the Economics and Civil Engineering courses in an University of the South of Bahia in 2017. The methodology used the exploratory study techniques, empiric study and development study with the intent of elaborating activities contextualized in the software Scratch that involve Domestic Economy and Financial Education themes. On that base, it was highlighted the artefacts construction using the programming speech of Scratch and the ICDT, providing the learning of computational concepts and the dissemination of the computational thinking concept at the higher education courses.
 
 KEYWORDS: Computational Thinking; Domestic and Financial Economy; Software Scratch; Information and Communication Digital Technologies (ICDT).
 
 
 RESUMEN
 El objetivo de este artículo es analizar la integración del software de scratch para promover el desarrollo del pensamiento computacional en la educación superior. Para esto se exploraron los contenidos de la Economía Doméstica y la Educación Financiera como escenario en la enseñanza de conceptos básicos de la Computación, que son algoritmos, lenguaje y arquitectura de programación vinculados a la resolución de problemas cotidianos que permitan la formación del ciudadano. El referencial teórico se articula con los conceptos de Tecnologías Digitales de Información y Comunicación (TDIC) en Educación y Pensamiento Computacional, además de los contenidos específicos del área de Economía Doméstica y Educación Financiera. La investigación es de carácter cualitativo y se realizó en las carreras de Economía e Ingeniería Civil en una Universidad del Sur de Bahia en el año 2017. La metodología empleó las técnicas del estudio exploratorio, el estudio empírico y el estudio del desarrollo con el fin de elaborar actividades contextualizadas en Software de Scratch que involucren a los sujetos de la Economía Doméstica y la Educación Financiera. A partir de esto, se evidenció la construcción de los artefactos utilizando el lenguaje de programación de Scratch y TDIC, proporcionando el aprendizaje de conceptos computacionales y la difusión del concepto de pensamiento computacional en los cursos de educación superior.
 
 PALABRAS CLAVE: Pensamiento computacional; Economía doméstica y financiera; Software Scratch; Tecnologías de Información y Comunicación Digitales (TDIC).
APA, Harvard, Vancouver, ISO, and other styles
3

De Lima Mendes, Antonio Raian. "Comparativo de desempenho de execução de Algoritmos no CUDA e no OpenCL." Anais dos Seminários de Iniciação Científica, no. 22 (February 4, 2019). http://dx.doi.org/10.13102/semic.v0i22.4171.

Full text
Abstract:
Com o avanço tecnológico surgiu a necessidade de processar dados de formamais rápida e eficaz. Dando origem à Computação Paralera (CP) (ROCHA,2007/2008) e os processadores capazes de atender as necessidades da mesma que são osmulticore ou os manycore. Um exemplo de processadores que se assemelham aosmanycore, possuindo dezenas de unidades de processamento, são as Placas Gráficas(GPU). As GPUs foram projetadas para auxiliar em cálculos de uso intensivos dosprocessadores comuns, elas possuem muito mais núcleos de processamentos quepermite a execução simultânea de operações idênticas sobre dados diferentes (SIMD)(DE PAULA, 2014).Novas plataformas para gerenciar a implementação de algoritmos foram criadase com elas outras tecnologias como Application Programming Interface (API) ebibliotecas foram aprimoradas. APIs e bibliotecas são interfaces usadas para acessaralgumas funções existentes sem necessariamente saber como o código fonte funciona, adiferença básica é que as primeiras são mantidas por entidades e isso agrega umaconfiabilidade maior aos serviços. Atualmente, as plataformas que mais se destacampara computação paralela usando GPU são: CUDA (Compute Unified DeviceArchitecture), OpenCL (Open Computing Language) e Direct Compute (Microsoft).A CUDA foi criada pela NVIDIA em 2006, com o intuito de otimizar aexecução de algoritmos nas placas desenvolvidas por esta empresa. O OpenCL,desenvolvido pela Khronos, é uma plataforma aberta que comporta a paralelização deaplicações e, também, admite a elaboração de códigos heterogêneos podendo assimaproveitar tanto a CPU quanto a GPU (TSUCHIYAMA, 2010). Visto que noLaboratório de Computação de Alto Desempenho (LaCAD) da Universidade Estadualde Feira de Santana (UEFS) existem GPU da NVIDIA, foi possível utilizar ambas asplataformas. Dessa forma, esse trabalho teve o objetivo de testar e identificar, dentreelas, a que potencializa a criação de sistemas de alto desempenho para atender asnecessidades do laboratório.
APA, Harvard, Vancouver, ISO, and other styles
4

Santos, Cássio Silva de Sá. "DEFINIÇÃO DE METODOLOGIA DE APLICAÇÃO DE COMUNICAÇÃO ASSÍNCRONA DE FUNÇÕES NA ARQUITETURA CUDA." Anais dos Seminários de Iniciação Científica, no. 21 (November 1, 2017). http://dx.doi.org/10.13102/semic.v0i21.2205.

Full text
Abstract:
A Computação de Alto Desempenho, ou High Performance Computing (HPC)em inglês, é o conjunto de técnicas, algoritmos, e sistemas computacionais (softwares ehardwares) que são desenvolvidos para: a) reduzir o tempo de execução dos programaspara um determinado volume de dados e/ou b) aumentar o volume de dados mantendo otempo de execução dos programas dentro de limites aceitáveis para o problema que sequer resolver. Dentro desse contexto, uma das atividades chaves corresponde a analisare entender o comportamento de algoritmos e sistemas computacionais para que se possaatingir o máximo desempenho possível para um determinado software executando numaplataforma computacional específica.Um dos grandes problemas que permeiam não só a área da Computação de AltoDesempenho mas também a área da computação como um todo são as etapas detransferência de dados. No caso específico de sistemas baseados na arquitetura decomputação paralela Compute Unified Device Architecture (CUDA), da NVIDIA, atransferência de dados entre a memória da Unidade Central de Processamento - Centralprocessing unit (CPU) e a memória da Unidades de Processamento Gráfico - GraphicsProcessing Unit (GPU) é um potencial ponto de perda de desempenho do código.Uma das possíveis formas de eliminar este problema é fazendo overlappingentre o cômputo da GPU e a transferência de dados da GPU/CPU e CPU/GPU atravésde comunicação assíncrona [KIRK 2010]. Por isso, é importante o estudo de métodos desincronismo e assincronismo em comunicação de dados entre CPU e GPU naarquitetura CUDA. Este trabalho objetiva-se a avaliar métodos que podem serutilizados para reduzir ou eliminar a influência do tempo de comunicação da CPU como dispositivo CUDA sobre o tempo total de execução de uma aplicação paralela.Para tal, no entanto, é necessário que haja um estudo de caso adequado. Os sereshumanos tornaram-se capazes de colocar satélites em órbita para os mais diversos fins.No entanto, tais equipamentos possuem uma vida útil. Em outras palavras, após umtempo determinado, passam a parar de funcionar adequadamente.Um dos grandes problemas da nova era tecnológica encontra-se justamente nosdetritos que são gerados por estes equipamentos; o chamado “lixo espacial”. Segundodados da NASA, mais de 500 mil objetos singulares caracterizados como “lixoespacial” orbitam atualmente o planeta, numa velocidade rápida o bastante paradanificar os caríssimos equipamentos em órbita e estações espaciais.Diversas possíveis soluções existem neste campo. Uma delas consiste naseguinte proposta: Um equipamento capaz de encontrar tais detritos, alinhar-se à eles eatirá-los de volta à superfície da terra. Para que tal equipamento funcione, sãonecessários diversos cálculos físicos de alta demanda de cômputo, na tentativa desolucionar o problema caricaturizado como o problema “Rendezvous”.O trabalho aqui apresentado descreve também o processo de elaboração do casode uso que envolve o código do Rendezvous, projeto da área da astronomia, que buscaapresentar uma solução para descobrir as configurações físicas com as quais um veículoespacial deve ser criado para que o mesmo seja capaz de alcançar detritos espaciais eexecutar a ação corretiva para a qual foi programado.
APA, Harvard, Vancouver, ISO, and other styles
5

Oliveira, Gledson. "Aplicação de Bibliotecas para Cômputo Numérico de Equações Diferenciais em Arquitetura CUDA." Anais dos Seminários de Iniciação Científica, no. 21 (November 1, 2017). http://dx.doi.org/10.13102/semic.v0i21.2444.

Full text
Abstract:
Abordar numericamente problemas que utilizam equações diferenciais ordinárias (ODE- Ordinary Differential Equation ) tornou-se inevitável, visto que atualmente muitosdeles atingiram tal complexidade que o uso de métodos analíticos tornou-se inviável(Sandes, 2012). Um tratamento computacional a partir de bibliotecas de cômputonumérico são adequadas a esta situação, pois elas possuem uma conjunto de algoritmosprontos para encontrar uma solução de diversos casos, otimizando assim o trabalho deprodução.Atualmente, está em desenvolvimento no Laboratório de Computação de AltoDesempenho (LaCAD) da Universidade Estadual de Feira de Santana (UEFS), umtrabalho de pesquisa com bibliotecas numéricas de alto desempenho que solucionamnumericamente ODEs, usando como caso de estudo um sistema de equaçõesdiferenciais de segunda ordem que calculam a distância relativa entre um detritoespacial e um satélite. Este modelo é utilizado na astronomia para calcular possibilidadede colisões entre satélites e detritos (Jesus, 2012). Tal problema foi tratado utilizandouma biblioteca em serial de cômputo numérico e paralelizado utilizando arquiteturamulti-core de memória compartilhada com OpenMP, obtendo assim melhordesempenho de computo.Um outro caminho para tratar esta situação é utilizando paralelismo em GPUs.Por causa do altíssimo poder computacional dessa arquitetura que é naturalmenteparalela, é possível manipular enormes cargas de trabalho e acelerar o cômputo demétodos numérico com uso de uma Application Programming Interface (API). Devidoa estas características, diversos pesquisadores de todo o mundo estão desenvolvendoalgoritmos para esta plataforma, usando-a para cálculos matemáticos de propósito geral.(Buriol, 2009)O CUDA (Compute Unified Device Architecture) é um modelo de programaçãodesenvolvidos para utilizar de forma eficiente o poder das GPUs. Esta tecnologia foidesenvolvida pela NVIDIA e permite a utilização de unidade de processamento gráficos(GPUs) da NVIDIA para a computação paralela. No site da NVIDIA( http://www.NVIDIA.com.br/object/CUDA_home_br.html ) encontram-se diversaspesquisas que utilizam CUDA para uma aplicação em GPU como simulação de efeitosfísicos, exploração de gás e petróleo, processamento de imagens na área médica,pesquisa científica e muitos outros. (Buriol, 2009)Nesse sentido, este plano de trabalho objetiva demonstrar o estudo de bibliotecaspara cômputo numérico de ODEs em uma aplicação paralela em GPUs utilizando aarquitetura CUDA. Foram usados como base de teste programas já conhecidos edesenvolvidos pela equipe do laboratório para a resolução do problema da astronomia,paralelizando-os no ambiente de GPU. Nesse sentido, foi realizado uma comparaçãoentre o desempenho das aplicaões em GPU com outra plataformas de cômputo paralelojá testada, a de memória compartilhada utilizando OpenMP.
APA, Harvard, Vancouver, ISO, and other styles
6

Gil, Bruno. "Apropos Digital Alberti and Palladio Virtuel. The preponderance of tools for research in history of architecture." Joelho Revista de Cultura Arquitectonica, no. 5 (December 30, 2014). http://dx.doi.org/10.14195/1647-8681_5_9.

Full text
Abstract:
[EN]
 Engaging architecture with research continues to be an issue of concern among most schools of architecture, mainly when addressing the way in how design can be translated into and be considered research. Innovative tools imported from the computational universe to the realm of design have caused diverse transformations within the methodologies and ultimately continue to transform aesthetical conceptions, while investigate form and search for disruptive solutions.
 Likewise it is also crucial to study how these tools are changing the actual processes of research within the investigation of history of architecture, and to assess the preponderance of these instruments for the production of theory. Hence, this paper will focus on two current research projects – Digital Alberti and Palladio Virtuel – which share the return to the Renaissance and also the use of computational tools to enhance research, even if with different objectives, methods and ends.
 
 [PT]
 Relacionar arquitectura e investigação continua a ser uma preocupação latente em grande parte das escolas de arquitectura, principalmente, em como o projecto pode ser considerado e ser traduzido em investigação. Novas ferramentas trazidas do mundo computacional para o projecto causaram diversas transformações nas metodologias e em última instância continuam a transformar as concepções estéticas, enquanto investigam a forma e procuram soluções disruptivas.
 O presente artigo procura reconhecer como estas ferramentas estão a mudar os processos actuais de investigação no âmbito da história da arquitectura e avaliar a preponderância dos instrumentos para a produção de teoria. Assim, incidir-se-á em dois projectos de investigação em desenvolvimento – Alberti Digital e Palladio Virtuel – que partilham o regresso ao Renascimento e também o uso de ferramentas da computação para potenciar a investigação, se bem que com diferentes objectivos, métodos e fins.
APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "CUDA (Arquitectura da computação)"

1

Carvalho, Camilo Alves. "Modelagem Paralela em C+CUDA de Sistema Neural de Visão Estereoscópica." Universidade Federal do Espírito Santo, 2009. http://repositorio.ufes.br/handle/10/6381.

Full text
Abstract:
Made available in DSpace on 2016-12-23T14:33:40Z (GMT). No. of bitstreams: 1 camilodissertacao 1.pdf: 1333302 bytes, checksum: 388e76b982d3fcda211a4b13f3a4c813 (MD5) Previous issue date: 2009-08-31<br>The images formed on our retinae are bidimensional; however, from them our brain is capable of synthesizing a 3D representation with color, shape and depth information about the objects in the surrounding environment. For that, after choosing a point in 3D space, our eyes verge to this point and, at the same time, the visual system is fed back with the eyes position information, interpreting it as the distance of this point to the observer. Depth perception around the vergence point is obtained using visual disparity, i.e., the difference between the positions in the retinae of the two projections of a given point in 3D space caused by the horizontal separation of the eyes. Most of the depth perception processing is done in the visual cortex, mainly in the primary (V1) and medial temporal (MT) areas. In this work, we developed a parallel implementation in C+CUDA of model, built at UFES, of the neural architecture of the V1 and MT cortices that uses as building blocks previous models of cortical cells and log-polar mapping. A sequential implementation of this model can create tridimensional representations of the external world using stereoscopic image pairs obtained from a pair of fronto-parallel cameras. Our C+CUDA parallel implementation is almost 60 times faster and allows real-time 3D reconstruction.<br>As imagens projetadas em nossas retinas são bidimensionais; entretanto, a partir delas, o nosso cérebro é capaz de sintetizar uma representação 3D com a cor, forma e informações de profundidade sobre os objetos ao redor no ambiente. Para isso, após a escolha de um ponto no espaço 3D, os nossos olhos vergem em direção a este ponto e, ao mesmo tempo, o sistema visual é realimentado com informações sobre o posicionamento dos olhos, interpretando-as como a distância deste ponto ao observador. A percepção de profundidade ao redor do ponto de vergência é obtida utilizando-se a disparidade entre as imagens direita e esquerda, ou seja, a diferença entre as posições, nas retinas, das duas projeções de um determinado ponto no espaço 3D causada pela separação horizontal dos olhos. A maior parte do processamento da percepção da profundidade é feita no córtex visual, principalmente na área primária (V1) e temporal medial (MT). Neste trabalho, foi desenvolvida uma implementação em C+CUDA de um modelo, criado na UFES, da arquitetura neural dos córtices V1 e MT que usa como base modelos anteriores de células corticais e mapeamento log-polar. A implementação seqüencial deste modelo é capaz de construir uma representação tridimensional do mundo externo por meio de pares de imagens estereoscópicas obtidas a partir de um par de câmeras fronto-paralelas. Nossa implementação paralela em C+CUDA é quase 60 vezes mais rápida que a seqüencial e permite a reconstrução 3D em tempo real.
APA, Harvard, Vancouver, ISO, and other styles
2

MORAES, Sérgio Ricardo dos Santos. "Computação paralela em cluster de GPU aplicado a problema da engenharia nuclear." reponame:Repositório Institucional do IEN, 2012. http://hdl.handle.net/ien/538.

Full text
Abstract:
Submitted by Almir Azevedo (barbio1313@gmail.com) on 2013-12-09T12:17:20Z No. of bitstreams: 1 dissertacao_mestrado_ien_2012_01.pdf: 1805099 bytes, checksum: c22681117de84a4db428c8b495af3eab (MD5)<br>Made available in DSpace on 2013-12-09T12:17:20Z (GMT). No. of bitstreams: 1 dissertacao_mestrado_ien_2012_01.pdf: 1805099 bytes, checksum: c22681117de84a4db428c8b495af3eab (MD5) Previous issue date: 2012<br>A computação em cluster tem sido amplamente utilizada como uma alternativa de relativo baixo custo para processamento paralelo em aplicações científicas. Com a utilização do padrão de interface de troca de mensagens (MPI, do inglês Message-Passing Interface), o desenvolvimento tornou-se ainda mais acessível e difundido na comunidade científica. Uma tendência mais recente é a utilização de Unidades de Processamento Gráfico (GPU, do inglês Graphic Processing Unit), que são poderosos coprocessadores capazes de realizar centenas de instruções ao mesmo tempo, podendo chegar a uma capacidade de processamento centenas de vezes a de uma CPU. Entretanto, um microcomputador convencional não abriga, em geral, mais de duas GPUs. Portanto, propõe-se neste trabalho o desenvolvimento e avaliação de uma abordagem paralela híbrida de baixo custo na solução de um problema típico da engenharia nuclear. A ideia é utilizar a tecnologia de paralelismo em clusters (MPI) em conjunto com a de programação de GPUs (CUDA, do inglês Compute Unified Device Architecture) no desenvolvimento de um sistema para simulação do transporte de nêutrons, através de uma blindagem por meio do Método Monte Carlo. Utilizando a estrutura física de cluster composto de quatro computadores com processadores quad-core e 2 GPUs cada, foram desenvolvidos programas utilizando as tecnologias MPI e CUDA. Experimentos empregando diversas configurações, desde 1 até 8 GPUs, foram executados e comparados entre si, bem como com o programa sequencial (não paralelo). Observou-se uma redução do tempo de processamento da ordem de 2.000 vezes quando se comparada a versão paralela de 8 GPUs com a versão sequencial. Os resultados aqui apresentados são discutidos e analisados com o objetivo de destacar ganhos e possíveis limitações da abordagem proposta.<br>Cluster computing has been widely used as a low cost alternative for parallel processing in scientific applications. With the use of Message-Passing Interface (MPI) protocol development became even more accessible and widespread in the scientific community. A more recent trend is the use of Graphic Processing Unit (GPU), which is a powerful co-processor able to perform hundreds of instructions in parallel, reaching a capacity of hundreds of times the processing of a CPU. However, a standard PC does not allow, in general, more than two GPUs. Hence, it is proposed in this work development and evaluation of a hybrid low cost parallel approach to the solution to a nuclear engineering typical problem. The idea is to use clusters parallelism technology (MPI) together with GPU programming techniques (CUDA – Compute Unified Device Architeture) to simulate neutron transport through a slab using Monte Carlo method. By using a cluster comprised by four quad-core computers with 2 GPU each, it has been developed programs using MPI and CUDA technologies. Experiments, applying different configurations, from 1 to 8 GPUs has been performed and results were compared with the sequential (non-parallel) version. A speed up of about 2.000 times has been observed when comparing the 8- GPU with the sequential version. Results here presented are discussed and analysed with the objective of outlining gains and possible limitations of the proposed approah.
APA, Harvard, Vancouver, ISO, and other styles
3

Oliveira, Otávio Cordeiro Siqueira de. "Meparalel : um método para análise de implementação de algoritmo paralelo baseado em CUDA." Universidade Federal de Sergipe, 2015. https://ri.ufs.br/handle/riufs/3376.

Full text
Abstract:
There are basically two approaches to attempt to improve performance of the algorithms: (i) the hardware-based and (ii) the software-based. The approaches based on software, that before were based on sequences algorithms, could not extract the hardware resources available. To solve this problem the parallel algorithms arose. Parallel algorithms tend to do their jobs more quickly due to their ability to distribute their workload by the available multi-core processors. In the search for the processing improvement the GPU started to be used in general purpose computing, and changed from a simple graphics processor to a parallel coprocessor capable of simultaneously performing thousands of operations. NVIDIA to popularize the GPU use in general purpose computing launched the CUDA which allows developers to parallelize their solutions more intuitively. But it is not an easy task to parallelize in order to improve resources utilization and reduce the processing time. Thus, as the literature offers no suitable mechanism, this paper proposes a method for analysis of parallel algorithms that can help the process of analysis and refactoring code built in CUDA programming platform and what can generate faster, more efficient algorithms in the consumption of hardware resources.<br>Existem basicamente duas abordagens para tentativas de melhoria de desempenho dos algoritmos: (i) as baseadas em hardware e (ii) as baseadas em software. As baseadas em software que antes se apoiavam em algoritmos sequenciais não conseguiam extrair os recursos de hardware oferecidos. Para solucionar o problema, surgiram os algoritmos paralelos. Algoritmos paralelos tendem a executar suas tarefas mais rapidamente devido à capacidade de distribuir sua carga de trabalho pelos múltiplos núcleos de processadores disponíveis. Na busca pela melhoria de processamento, as GPUs passaram a ser utilizadas na computação de propósito geral e passaram de um simples processador gráfico para um coprocessador paralelo, capaz de executar milhares de operações simultaneamente. A NVIDIA, para popularizar o uso da GPU na computação de propósito geral lançou a CUDA, que permite aos desenvolvedores paralelizar suas soluções de forma mais intuitiva. Porém, a tarefa de paralelizar de forma a aperfeiçoar a utilização de recursos e reduzir o tempo de processamento não é uma tarefa fácil. O estado da arte não apresenta um mecanismo de análise de desempenho adequado, dessa forma, este trabalho propõe um método para análise de algoritmos paralelos que possam auxiliar o processo de análise e refatoração de códigos construídos na plataforma de programação CUDA podendo assim, gerar algoritmos mais rápidos e eficientes no consumo de recursos de hardware.
APA, Harvard, Vancouver, ISO, and other styles
4

Morais, Junior Aderbal de. "Uma biblioteca para desenvolvimento de aplicações CUDA em aglomerados de GPUS." reponame:Repositório Institucional da UFABC, 2013.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
5

Guarita, Fábio Chiocchetti. "Avaliação da arquitetura CUDA para síntese de imagens SAR operando em tempo real." Instituto Tecnológico de Aeronáutica, 2010. http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=3024.

Full text
Abstract:
A geração e processamento de imagens em computadores envolve o processamento de quantidades massivas de elementos de imagem. Devido à grande demanda do mercado de entretenimento, as unidades de processamento gráfico, ou GPUs, evoluiram muito nas últimas décadas, caracterizando-se pela operação com grandes volumes de dados e pelo paralelismo massivo, atingindo volumes de operações superiores aos das CPUs. As GPUs foram concebidas inicialmente para o processamento gráfico e renderização de imagens 3D. Contudo, recentemente, fornecedores de hardware gráfico possibilitaram que programadores desenvolvessem código de propósito geral para suas arquiteturas por meio de interfaces específicas de programação. O novo uso para essas arquiteturas tornou-se muito interessante onde quer que processamento massivo, repetitivo e paralelizável fosse necessário. Neste trabalho apresenta-se uma discussão sobre as vantagens e desvantagens derivadas do uso da tecnologia CUDA para acelerar o processamento de dados brutos de um radar de abertura sintética (SAR) operando em tempo real. Propõe-se um modo de processamento em tempo real baseado na divisão dos dados brutos em blocos, ressaltando os ganhos e custos desta abordagem. Também são propostos critérios de viabilidade para esse modo de processamento baseado no tempo de processamento dos blocos e nos dados do sensor SAR. É introduzida a tecnologia GPGPU (General Purpose computing on Graphics Processing Unit) representada pelo CUDA. Além disso, apresentam-se uma descrição do processamento SAR, o paradigma GPGPU e a tecnologia CUDA. Apresentam-se também a implementação do processador SAR Range-Doppler em CPU (single-thread) e em CUDA e o seu teste em experimentos comparando o desempenho de execução de cada implementação e a análise da viabilidade de processamento nos termos definidos neste trabalho. Os resultados experimentais demonstram um ganho considerável de desempenho utilizando-se o CUDA, apontando-o como arquitetura propícia para síntese de imagens SAR de tempo real.
APA, Harvard, Vancouver, ISO, and other styles
6

SOUZA, Daniel Leal. "Otimização por multi-enxame evolucionário de partículas clássico e quântico competitivo sob a arquitetura paralela CUDA aplicado em problemas de engenharia." Universidade Federal do Pará, 2014. http://repositorio.ufpa.br/jspui/handle/2011/9008.

Full text
Abstract:
Submitted by Hellen Luz (hellencrisluz@gmail.com) on 2017-07-26T19:13:46Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_OtimizacaoMultiEnxame.pdf: 21921599 bytes, checksum: 6cbd45a74833514b23e7604d298c5978 (MD5)<br>Approved for entry into archive by Irvana Coutinho (irvana@ufpa.br) on 2017-08-21T13:29:15Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_OtimizacaoMultiEnxame.pdf: 21921599 bytes, checksum: 6cbd45a74833514b23e7604d298c5978 (MD5)<br>Made available in DSpace on 2017-08-21T13:29:15Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_OtimizacaoMultiEnxame.pdf: 21921599 bytes, checksum: 6cbd45a74833514b23e7604d298c5978 (MD5) Previous issue date: 2014-05-23<br>FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas<br>Este trabalho apresenta o desenvolvimento de um conjunto de metaheurística híbridas, baseadas na utilização das estratégias evolutivas em conjunto com os algoritmos de otimização por enxame de partículas clássica e quântica sob um ambiente multi-enxame com topologia mestre-escravos. Tais algoritmos são denominados Competitive Evolutionary Multi-Swarm Optimization (CEMSO) 1 e Competitive Quantum-Behaviour Evolutionary Multi-Swarm Optimization (CQEMSO) 2. Para efeito de comparação e validação dos resultados, são utilizados quatro problemas de engenharia presentes em diversas publicações científicas: Projeto de Viga de Aço (WBD); Peso da Tensão/Compressão sobre Mola (MWTCS); Projeto de Redutor de Velocidade (SRD); Projeto de Vaso de Pressão (DPV). Em relação a implementação, os algoritmos foram desenvolvidos sob a arquitetura CUDA, a qual proporciona um ambiente de computação paralela massiva que viabiliza uma distribuição de dados mais adequada em relação a organização dos enxames, além de contribuir para a diminuição significativa do tempo de processamento. Com a aplicação das estratégias evolutivas nos algoritmos PSO e QPSO, bem como os mecanismos de condições de contorno propostos, as soluções descritas neste documento oferecem diversas vantagens, onde se pode destacar melhorias na capacidade de busca, aumento na taxa de convergência e alto grau de paralelismo. Tais fatos são confirmados através dos dados obtidos (i.e. Tempo de execução, melhores soluções obtidas, média e variância de resultados) pelos algoritmos CEMSO e CQEMSO em relação as versões multi-enxame dos algorimos PSO (COMSO), EPSO (COEMSO) e COQMSO (QPSO), todos implementados e submetidos a análise de desempenho através dos experimentos com problemas de engenharia.<br>This paper presents the development of a set of hybrid metaheuristic based on the use of evolutionary strategies in conjunction with classical and quantum multi-swarm optimization with master-slave approach. These algorithms are named Competitive Evolutionary Multi-Swarm Optimization (CEMSO) and Competitive Quantum-Behaviour Evolutionary Multi-Swarm Optimization (CQEMSO). For comparison and validation of the results, four engineering problems encountered in many publications scientific are used: Welded Beam Design (WBD); Minimization of the Weight of a Tension/ Compression Spring (MWTCS); Speed Reducer Design (SRD); Design of a Pressure Vessel (DPV). The algorithms were developed under the CUDA architecture, which provides a massive parallel computing environment that enables a more appropriate data allocation regarding the organization of swarms, as well as contributing to the significant decrease in processing time. With the application of evolutionary strategies in the PSO and QPSO algorithms, as well as the proposed boundary conditions, the solutions described in this document offer several advantages. We can highlight improvements in the ability to search, increasing the convergence rate and high degree of parallelism. These facts are confirmed by the data obtained (i.e. Execution time, best solutions obtained, mean and variance of results) by CQEMSO and CQEMSO algorithms when compared to those obtained from multi-swarm approach for PSO (COMSO), EPSO (COEMSO) and QPSO (COQMSO). All of these algorithms were implemented and subjected to performance analysis through experiments with engineering problems described above.
APA, Harvard, Vancouver, ISO, and other styles
7

Luz, Cleber Silva Ferreira da. "Implementações de algoritmos paralelos da subsequência máxima e da submatriz máxima em GPU." reponame:Repositório Institucional da UFABC, 2013.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
8

Borelli, Fabrizio Ferreira. "Inferência de redes de regulação gênica usando algoritmo de busca exaustiva em clusters de GPUs." reponame:Repositório Institucional da UFABC, 2013.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
9

Silva, Júnior José Bonifácio da. "Paralelização em CUDA do algoritmo Aho-Corasick utilizando as hierarquias de memórias da GPU e nova compactação da Tabela de Transcrição de Estados." Universidade Federal de Sergipe, 2017. https://ri.ufs.br/handle/riufs/3353.

Full text
Abstract:
The Intrusion Detection System (IDS) needs to compare the contents of all packets arriving at the network interface with a set of signatures for indicating possible attacks, a task that consumes much CPU processing time. In order to alleviate this problem, some researchers have tried to parallelize the IDS's comparison engine, transferring execution from the CPU to GPU. This This dissertation aims to parallelize the Brute Force and Aho-Corasick string matching algorithms and to propose a new compression of the State Transition Table of the Aho-Corasick algorithm in order to make it possible to use it in shared memory and accelerate the comparison of strings. The two algorithms were parallelized using the NVIDIA CUDA platform and executed in the GPU memories to allow a comparative analysis of the performance of these memories. Initially, the AC algorithm proved to be faster than the Brute Force algorithm and so it was followed for optimization. The AC algorithm was compressed and executed in parallel in shared memory, achieving a performance gain of 15% over other GPU memories and being 48 times faster than its serial version when testing with real network packets. When the tests were done with synthetic data (less random data) the gain reached 73% and the parallel algorithm was 56 times faster than its serial version. Thus, it can be seen that the use of compression in shared memory becomes a suitable solution to accelerate the processing of IDSs that need agility in the search for patterns.<br>Um Sistema de Detecção de Intrusão (IDS) necessita comparar o conteúdo de todos os pacotes que chegam na interface da rede com um conjunto de assinaturas que indicam possíveis ataques, tarefa esta que consome bastante tempo de processamento da CPU. Para amenizar esse problema, tem-se tentado paralelizar o motor de comparação dos IDSs transferindo sua execução da CPU para a GPU. Esta dissertação tem como objetivo fazer a paralelização dos algoritmos de comparação de strings Força-Bruta e Aho-Corasick e propor uma nova compactação da Tabela de Transição de Estados do algoritmo Aho-Corasick a fim de possibilitar o uso dela na memória compartilhada e acelerar a comparação de strings. Os dois algoritmos foram paralelizados utilizando a plataforma CUDA da NVIDIA e executados nas memórias da GPU a fim de possibilitar uma análise comparativa de desempenho dessas memórias. Inicialmente, o algoritmo AC mostrou-se mais veloz do que o algoritmo Força-Bruta e por isso seguiu-se para sua otimização. O algoritmo AC foi compactado e executado de forma paralela na memória compartilhada, alcançando um ganho de desempenho de 15% em relação às outras memórias da GPU e sendo 48 vezes mais rápido que sua versão na CPU quando os testes foram feitos com pacotes de redes reais. Já quando os testes foram feitos com dados sintéticos (dados menos aleatórios) o ganho chegou a 73% e o algoritmo paralelo chegou a ser 56 vezes mais rápido que sua versão serial. Com isso, pode-se perceber que o uso da compactação na memória compartilhada torna-se uma solução adequada para acelerar o processamento de IDSs que necessitem de agilidade na busca por padrões.
APA, Harvard, Vancouver, ISO, and other styles
10

Reis, Ruy Freitas. "Simulações numéricas 3D em ambiente paralelo de hipertermia com nanopartículas magnéticas." Universidade Federal de Juiz de Fora (UFJF), 2014. https://repositorio.ufjf.br/jspui/handle/ufjf/3499.

Full text
Abstract:
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-02-24T15:43:42Z No. of bitstreams: 1 ruyfreitasreis.pdf: 10496081 bytes, checksum: 05695a7e896bd684b83ab5850df95449 (MD5)<br>Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-03-06T19:28:45Z (GMT) No. of bitstreams: 1 ruyfreitasreis.pdf: 10496081 bytes, checksum: 05695a7e896bd684b83ab5850df95449 (MD5)<br>Made available in DSpace on 2017-03-06T19:28:45Z (GMT). No. of bitstreams: 1 ruyfreitasreis.pdf: 10496081 bytes, checksum: 05695a7e896bd684b83ab5850df95449 (MD5) Previous issue date: 2014-11-05<br>CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior<br>Este estudo tem como objetivo a modelagem numérica do tratamento de tumores sólidos com hipertermia utilizando nanopartículas magnéticas, considerando o modelo tridimensional de biotransferência de calor proposto por Pennes (1948). Foram comparadas duas diferentes possibilidades de perfusão sanguínea, a primeira constante e, a segunda, dependente da temperatura. O tecido é modelado com as camadas de pele, gordura e músculo, além do tumor. Para encontrar a solução aproximada do modelo foi aplicado o método das diferenças finitas (MDF) em um meio heterogêneo. Devido aos diferentes parâmetros de perfusão, foram obtidos sistemas de equações lineares (perfusão constante) e não lineares (perfusão dependente da temperatura). No domínio do tempo foram utilizados dois esquemas numéricos explícitos, o primeiro utilizando o método clássico de Euler e o segundo um algoritmo do tipo preditor-corretor adaptado dos métodos de integração generalizada da família-alpha trapezoidal. Uma vez que a execução de um modelo tridimensional demanda um alto custo computacional, foram empregados dois esquemas de paralelização do método numérico, o primeiro baseado na API de programação paralela OpenMP e o segundo com a plataforma CUDA. Os resultados experimentais mostraram que a paralelização em OpenMP obteve aceleração de até 39 vezes comparada com a versão serial, e, além disto, a versão em CUDA também foi eficiente, obtendo um ganho de 242 vezes, também comparando-se com o tempo de execução sequencial. Assim, o resultado da execução é obtido cerca de duas vezes mais rápido do que o fenômeno biológico.<br>This work deals with the numerical modeling of solid tumor treatments with hyperthermia using magnetic nanoparticles considering a 3D bioheat transfer model proposed by Pennes(1948). Two different possibilities of blood perfusion were compared, the first assumes a constant value, and the second one a temperature-dependent function. The living tissue was modeled with skin, fat and muscle layers, in addition to the tumor. The model solution was approximated with the finite difference method (FDM) in an heterogeneous medium. Due to different blood perfusion parameters, a system of linear equations (constant perfusion), and a system of nonlinear equations (temperaturedependent perfusion) were obtained. To discretize the time domain, two explicit numerical strategies were used, the first one was using the classical Euler method, and the second one a predictor-corrector algorithm originated from the generalized trapezoidal alpha-family of time integration methods. Since the computational time required to solve a threedimensional model is large, two different parallel strategies were applied to the numerical method. The first one uses the OpenMP parallel programming API, and the second one the CUDA platform. The experimental results showed that the parallelization using OpenMP improves the performance up to 39 times faster than the sequential execution time, and the CUDA version was also efficient, yielding gains up to 242 times faster than the sequential execution time. Thus, this result ensures an execution time twice faster than the biological phenomenon.
APA, Harvard, Vancouver, ISO, and other styles
More sources

Book chapters on the topic "CUDA (Arquitectura da computação)"

1

Flores, Henrique Gavioli, Alex Lima de Mello, Marcelo Trindade Rebonatto, and Carlos Amaral Hölbig. "INTEGRAÇÃO DA TECNOLOGIA CUDA AO MODELO DE PREVISÃO DO TEMPO ETA." In A Produção do Conhecimento na Engenharia da Computação. Atena Editora, 2019. http://dx.doi.org/10.22533/at.ed3921924057.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Conference papers on the topic "CUDA (Arquitectura da computação)"

1

Alves, Pedro Geraldo M. R., and Diego F. Aranha. "Computação sobre dados cifrados em GPGPUs." In I Encontro de Teoria da Computação. Sociedade Brasileira de Computação - SBC, 2018. http://dx.doi.org/10.5753/etc.2016.9832.

Full text
Abstract:
No contexto da computação na nuvem, a aplicação de métodos criptográficos exclusivamente no armazenamento e transporte dos dados não é suficiente, uma vez que precisam ser revelados ao serviço para ocorrer processamento. Esquemas de cifração homomórfica são candidatos naturais para computação sobre dados cifrados, o que os torna capazes de satisfazer esse novo requisito de segurança. Este trabalho apresenta a CUYASHE, uma implementação em GPGPUs do criptossistema homomórfico YASHE. A CUYASHE emprega CUDA, o Teorema Chinês do Resto e a Transformada Rápida de Fourier para obter ganho de desempenho sobre o estado da arte. Em especial, destaca-se uma redução de 6 até 35 vezes no tempo de execução da operação de multiplicação.&#x0D;
APA, Harvard, Vancouver, ISO, and other styles
2

Cabral, Frederico Luís, Carla Osthoff, Mauricio Kischinhevsky, Diego Brandão, and Leonardo Jasmim. "Implementações Híbridas MPI/OpenMP/OpenACC/CUDA do Método HOPMOC na Resolução da Equação de Convecção-Difusão." In XV Simpósio em Sistemas Computacionais de Alto Desempenho. Sociedade Brasileira de Computação - SBC, 2014. http://dx.doi.org/10.5753/wscad.2014.15006.

Full text
Abstract:
A utilização da computação paralela na resolução de certos problemas descritos por equações diferenciais parciais permite um ganho significativo no tempo de computação. Este trabalho apresenta algumas implementações paralelas do método HOPMOC em ambientes de máquinas multicore e manycore. O método HOPMOC utiliza conceitos do método das características modificado associado com método Hopscotch, o que lhe fornece características ideais para abordagens em computação paralela em ambientes tanto de memória distribuída como compartilhada. O MPI é utilizado para comunicação no ambiente distribuído, enquanto OpenMP permite o paralelismo no ambiente de memória compartilhada de cada nó do cluster. OpenACC e CUDA, permitem o paralelismo no ambiente manycore disponível em placas aceleradoras gráficas. Resultados preliminares demonstram ganhos significativos de eficiência das implementações híbridas apresentadas quando comparado com uma versão sequencial do HOPMOC. As implementações que usam placas gráficas (manycore), apresentam menor tempo de execução quando comparado com OpenMP (multicore), mas por outro lado, a relação speedup por quantidade de cores é melhor no ambiente multicore, sugerindo um melhor aproveitamento das unidades de execução (cores).
APA, Harvard, Vancouver, ISO, and other styles
3

Pereira, Phillipe, Higo Albuquerque, Hendrio Marques, et al. "Verificação de Kernels em Programas CUDA usando Bounded Model Checking." In XVI Simpósio em Sistemas Computacionais de Alto Desempenho. Sociedade Brasileira de Computação - SBC, 2015. http://dx.doi.org/10.5753/wscad.2015.14269.

Full text
Abstract:
Este artigo apresenta uma extensão da ferramenta Efficient SMTBased Context-Bounded Model Checker (ESBMC) para verificar programas que executam em unidades de processamento gráfico (GPU), chamado de ESBMCGPU. Em especial, ESBMC-GPU é um verificador de modelos limitado baseado nas teorias do módulo da satisfatibilidade para programas desenvolvidos na arquitetura de dispositivo unificado de computação (CUDA). O ESBMC-GPU é baseado em um modelo operacional, uma representação abstrata das bibliotecas padrões do CUDA que conservadoramente aproxima suas semânticas. Com ESBMC-GPU, é possível verificar mais programas CUDA reais do que outras abordagens existentes.
APA, Harvard, Vancouver, ISO, and other styles
4

Araújo, Igor, Vincent Tadaiesky, Iago Cavalcante, and Ádamo Santana. "Algoritmo de Otimização por Enxame de Partículas Paralelo para Minimização de Perdas de Potência Ativa em Sistemas Elétricos de Potência." In Workshop em Desempenho de Sistemas Computacionais e de Comunicação. Sociedade Brasileira de Computação - SBC, 2015. http://dx.doi.org/10.5753/wperformance.2015.10409.

Full text
Abstract:
Com o aumento da procura de eletricidade e, consequentemente, a complexidade da operação e controle de sistemas de energia elétrica nas últimas décadas, estudos de redução da perda de potência ativa nestes sistemas têm seguido. Assim, usando os modelos IEEE 14, 30 e 57 barras, este estudo tem como objetivo avaliar a aplicabilidade de computação em GPU (Unidade de Processo Gráfico), mas especificamente de CUDA (Compute Unified Device Architecture), nesta área. Realizando uma análise crítica da utilização de estratégias bioinspirado em arquitetura paralela, a fim de minimizar a perda de potência ativa em sistemas elétricos de potência. Foi observado a partir dos resultados que o uso de computação GPU promissora quando o tamanho da malha é aumentado.
APA, Harvard, Vancouver, ISO, and other styles
5

D. Pereira, Alyson, Rodrigo C. O. Rocha, Márcio Castro, and Luís F. W. Góes. "Geração Automática de Estênceis Otimizados para GPUs." In XVIII Simpósio em Sistemas Computacionais de Alto Desempenho. Sociedade Brasileira de Computação, 2017. http://dx.doi.org/10.5753/wscad.2017.239.

Full text
Abstract:
Neste artigo propomos uma ferramenta que utiliza uma análise estática para detectar computações estêncil em laços aninhados em um códigos C/C++ e um gerador de código que, baseado nas informações do padrão de vizinhança da computação estêncil, gera um código CUDA otimizado. Para validar a nossa ferramenta, analisamos um conjunto de códigos presentes no benchmark Polybench, o qual contem códigos dos domínios de estatística, algebra linear e estêncil. Os resultados mostraram que a análise estática foi capaz de detectar corretamente o padrão estêncil. Além disso, o código gerado pela ferramenta proposta apresentou desempenho de até 2.25x ao código gerado automaticamente por um compilador referência no estado da arte.
APA, Harvard, Vancouver, ISO, and other styles
6

Gonçalves, Nielsen, Carlos Costa, Josivaldo Araújo, Jessé Costa, and Jairo Panetta. "Comparação e Análise de Desempenho de Aceleradores Gráficos no Processamento de Matrizes." In Workshop em Desempenho de Sistemas Computacionais e de Comunicação. Sociedade Brasileira de Computação - SBC, 2015. http://dx.doi.org/10.5753/wperformance.2015.10396.

Full text
Abstract:
Nos últimos anos as tradicionais soluções da Computação de Alto Desempenho (HPC, do inglês High Performance Computing), como a inserção ou a substituição de processadores, vêm sofrendo grandes mudanças, com a inclusão de novos recursos. O uso de aceleradores gráficos têm sido um dos métodos pelos quais tem se tornado possível continuar a ampliar o desempenho computacional. Porém, assim como outras técnicas, esta também conduz à necessidade de habilidades específicas de programação que permitam a melhor extração do poder computacional oferecido pelo conjunto CPU e GPU. Este trabalho faz uma comparação entre tecnologias como OpenACC, CUDA e OpenMP na avaliação de desempenho no processamento de matrizes.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!