С Новым годом! Форум программистов, компьютерный форум, киберфорум
CUDA
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 25.12.2020
Сообщений: 11
1

Адаптируйте код к сложению целочисленных матриц. Найдите наилучшую конфигурацию выполнения. Объясните.Заранее спасибо

15.01.2023, 20:56. Показов 962. Ответов 0
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
#include <cuda_runtime.h>
#include <stdio.h>
#define WIN32_LEAN_AND_MEAN
#include <Windows.h>
#include <stdint.h>
#define CHECK(call) 
{ 
const cudaError_t error = call; 
if (error != cudaSuccess) 
{ 
printf("Ошибка: %s:%d, ", __FILE__, __LINE__); 
printf("код:%d, причина: %s\n", error, cudaGetErrorString(error)); 
exit(-10*error); 
} 
} 
typedef struct timeval { long tv_sec; long tv_usec;
} timeval;
int gettimeofday(struct timeval* tp, struct timezone* tzp)
{
 // Это магическое число - количество 100-наносекундных интервалов с 1 января // 1601 (UTC) до 00:00:00 1 января 1970 static const uint64_t EPOCH = ((uint64_t)116444736000000000ULL);
 SYSTEMTIME system_time; FILETIME file_time; uint64_t time;
 GetSystemTime(&system_time); SystemTimeToFileTime(&system_time, &file_time); time = ((uint64_t)file_time.dwLowDateTime); time += ((uint64_t)file_time.dwHighDateTime) << 32;
 tp->tv_sec = (long)((time - EPOCH) / 10000000L); tp->tv_usec = (long)(system_time.wMilliseconds * 1000); return 0;
}
double cpuSecond() { struct timeval tp; gettimeofday(&tp, NULL); return ((double)tp.tv_sec + (double)tp.tv_usec * 1.e-6);
}
void initialData(float* ip, const int size)
{
 int i;
 for (i = 0; i < size; i++) { ip[i] = (float)(rand() & 0xFF) / 10.0f; }
 return;
}
void sumMatrixOnHost(float* A, float* B, float* C, const int nx, const int ny)
{
 float* ia = A; float* ib = B; float* ic = C;
 for (int iy = 0; iy < ny; iy++) {
 for (int ix = 0; ix < nx; ix++) { ic[ix] = ia[ix] + ib[ix];
 }
 ia += nx; ib += nx; ic += nx; }
 return;
}
void checkResult(float* hostRef, float* gpuRef, const int N)
{
 double epsilon = 1.0E-8; bool match = 1;
 for (int i = 0; i < N; i++) { if (abs(hostRef[i] - gpuRef[i]) > epsilon) { match = 0; printf("host %f gpu %f\n", hostRef[i], gpuRef[i]); break; } }
 if (match) printf("Arrays match.\n\n"); else printf("Arrays do not match.\n\n");
}
// 2D сетка и 2D блок
__global__ void sumMatrixOnGPU2D(float* MatA, float* MatB, float* MatC, int nx, int ny)
{
 unsigned int ix = threadIdx.x + blockIdx.x * blockDim.x; unsigned int iy = threadIdx.y + blockIdx.y * blockDim.y; unsigned int idx = iy * nx + ix;
 if (ix < nx && iy < ny) MatC[idx] = MatA[idx] + MatB[idx];
}
int main(int argc, char** argv)
{
 printf("%s Starting...\n", argv[0]);
 // настраиваем устройство int dev = 0; cudaDeviceProp deviceProp; CHECK(cudaGetDeviceProperties(&deviceProp, dev)); printf("Using Device %d: %s\n", dev, deviceProp.name); CHECK(cudaSetDevice(dev));
 // устанавливаем объём данных матрицы int nx = 1 << 14; int ny = 1 << 14;
 int nxy = nx * ny; int nBytes = nxy * sizeof(float); printf("Matrix size: nx %d ny %d\n", nx, ny);
 // выделяем память хоста float* h_A, * h_B, * hostRef, * gpuRef; h_A = (float*)malloc(nBytes); h_B = (float*)malloc(nBytes); hostRef = (float*)malloc(nBytes); gpuRef = (float*)malloc(nBytes);
 // инициализируем данные на стороне хоста double iStart = cpuSecond(); initialData(h_A, nxy); initialData(h_B, nxy); double iElaps = cpuSecond() - iStart; printf("Matrix initialization elapsed %f sec\n", iElaps);
 memset(hostRef, 0, nBytes); memset(gpuRef, 0, nBytes);
 // складываем матрицы на хосте для проверки результатов iStart = cpuSecond(); sumMatrixOnHost(h_A, h_B, hostRef, nx, ny); iElaps = cpuSecond() - iStart; printf("sumMatrixOnHost elapsed %f sec\n", iElaps);
 // выделяем глобальную память устройства float* d_MatA, * d_MatB, * d_MatC; CHECK(cudaMalloc((void**)&d_MatA, nBytes)); CHECK(cudaMalloc((void**)&d_MatB, nBytes)); CHECK(cudaMalloc((void**)&d_MatC, nBytes));
 // передаём данные с хоста на устройство CHECK(cudaMemcpy(d_MatA, h_A, nBytes, cudaMemcpyHostToDevice)); CHECK(cudaMemcpy(d_MatB, h_B, nBytes, cudaMemcpyHostToDevice));
 // вызываем ядро на стороне хоста int dimx = 32; int dimy = 32; dim3 block(dimx, dimy); dim3 grid((nx + block.x - 1) / block.x, (ny + block.y - 1) / block.y);
 iStart = cpuSecond(); sumMatrixOnGPU2D << <grid, block >> > (d_MatA, d_MatB, d_MatC, nx, ny); CHECK(cudaDeviceSynchronize()); iElaps = cpuSecond() - iStart; printf("sumMatrixOnGPU2D <<<(%d,%d), (%d,%d)>>> elapsed %f sec\n", grid.x, grid.y, block.x, block.y, iElaps); // проверяем ошибку ядра CHECK(cudaGetLastError());
 // копируем результаты на хост CHECK(cudaMemcpy(gpuRef, d_MatC, nBytes, cudaMemcpyDeviceToHost));
 // проверяем результаты устройства checkResult(hostRef, gpuRef, nxy);
 // очищаем глобальную память устройства CHECK(cudaFree(d_MatA)); CHECK(cudaFree(d_MatB)); CHECK(cudaFree(d_MatC));
 // освобождаем память хоста free(h_A); free(h_B); free(hostRef); free(gpuRef);
 // сбрасываем устройство CHECK(cudaDeviceReset());
 return (0);
}
Добавлено через 22 минуты
Изучаю Cuda ,пыталась сделать ,но не могу выполнить это задание. И ответ найти не могу(

Добавлено через 2 часа 41 минуту
C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
#include <stdlib.h>
#include "cuda_runtime.h"
#include <stddef.h>
#include <stdarg.h>
#include <stdint.h>
#include <stdatomic.h>
#include <stdio.h>
#include <stdint.h>
#include <math.h>
#include <cuBLAS.h>
#include <cuRAND.h>
#include <iostream>
#include <device_launch_parameters.h>
#define WIN32_LEAN_AND_MEAN
#include <Windows.h>
#define CHECK(call)
{ 
    const cudaError_t error = call; 
    if (error != cudaSuccess) 
    { 
        printf("Ошибка: %s:%d, ", __FILE__, __LINE__); 
        printf("код:%d, причина: %s\n", error, cudaGetErrorString(error)); 
        exit(-10*error); 
    } 
} 
typedef struct timeval {
    long tv_sec; long tv_usec;
} timeval;
 
int gettimeofday(struct timeval* tp, struct timezone* tzp)
{
    // Это магическое число - количество 100-наносекундных интервалов с 1 января 
    // 1601 (UTC) до 00:00:00 1 января 1970 
    static const uint64_t EPOCH = ((uint64_t)116444736000000000ULL);
 
    SYSTEMTIME system_time; 
    FILETIME file_time;
    uint64_t time;
 
    GetSystemTime(&system_time);
    SystemTimeToFileTime(&system_time, &file_time);
    time = ((uint64_t)file_time.dwLowDateTime);
    time += ((uint64_t)file_time.dwHighDateTime) << 32;
 
    tp->tv_sec = (long)((time - EPOCH) / 10000000L);
    tp->tv_usec = (long)(system_time.wMilliseconds * 1000); 
    return 0;
}
double cpuSecond() {
    struct timeval tp;
 gettimeofday(&tp, NULL);
    return ((double)tp.tv_sec + (double)tp.tv_usec * 1.e-6);
}
void initialData(float* ip, const int size)
{
    int i;
    for (i = 0; i < size; i++) 
    { 
        ip[i] = (float)(rand() & 0xFF) / 10.0f;
    }
    return;
}
void sumMatrixOnHost(float* A, float* B, float* C, const int nx, const int ny)
{
    float* ia = A;
    float* ib = B; 
    float* ic = C;
    for (int iy = 0; iy < ny; iy++) 
    {
        for (int ix = 0; ix < nx; ix++) 
        {
            ic[ix] = ia[ix] + ib[ix];
        }
        ia += nx;
        ib += nx;
        ic += nx;
    }
    return;
}
void checkResult(float* hostRef, float* gpuRef, const int N)
{
    double epsilon = 1.0E-8;
    bool match = 1;
    for (int i = 0; i < N; i++)
    { 
        if (abs(hostRef[i] - gpuRef[i]) > epsilon)
        { 
            match = 0;
            printf("host %f gpu %f\n", hostRef[i], gpuRef[i]);
            break;
        }
    }
    if (match) 
        printf("Arrays match.\n\n");
    else printf("Arrays do not match.\n\n");
}
 
// 2D сетка и 2D блок
__global__ void sumMatrixOnGPU2D(float* MatA, float* MatB, float* MatC, int nx, int ny)
{
    unsigned int ix = threadIdx.x + blockIdx.x * blockDim.x;
    unsigned int iy = threadIdx.y + blockIdx.y * blockDim.y;
    unsigned int idx = iy * nx + ix;
    if (ix < nx && iy < ny)
        MatC[idx] = MatA[idx] + MatB[idx];
}
int main(int argc, char** argv)
{
    printf("%s Starting...\n", argv[0]);
    
    // настраиваем устройство
     int dev = 0;
     cudaDeviceProp deviceProp;
     CHECK(cudaGetDeviceProperties(&deviceProp, dev));
     printf("Using Device %d: %s\n", dev, deviceProp.name);
     CHECK(cudaSetDevice(dev));
    
     // устанавливаем объём данных матрицы
     int nx = 1 << 14;
     int ny = 1 << 14;
 
    int nxy = nx * ny;
    int nBytes = nxy * sizeof(float);
    printf("Matrix size: nx %d ny %d\n", nx, ny);
    
    // выделяем память хоста
     float* h_A, * h_B, * hostRef, * gpuRef;
     h_A = (float*)malloc(nBytes);
     h_B = (float*)malloc(nBytes);
     hostRef = (float*)malloc(nBytes);
     gpuRef = (float*)malloc(nBytes);
    
     // инициализируем данные на стороне хоста 
     double iStart = cpuSecond();
     initialData(h_A, nxy);
     initialData(h_B, nxy);
     double iElaps = cpuSecond() - iStart;
     printf("Matrix initialization elapsed %f sec\n", iElaps);
 
     memset(hostRef, 0, nBytes);
     memset(gpuRef, 0, nBytes);
    
    // складываем матрицы на хосте для проверки результатов 
    iStart = cpuSecond();
    sumMatrixOnHost(h_A, h_B, hostRef, nx, ny);
    iElaps = cpuSecond() - iStart;
    printf("sumMatrixOnHost elapsed %f sec\n", iElaps);
 
    
    // выделяем глобальную память устройства
     float* d_MatA, * d_MatB, * d_MatC;
     CHECK(cudaMalloc((void**)&d_MatA, nBytes));
     CHECK(cudaMalloc((void**)&d_MatB, nBytes));
     CHECK(cudaMalloc((void**)&d_MatC, nBytes));
    
     // передаём данные с хоста на устройство
     CHECK(cudaMemcpy(d_MatA, h_A, nBytes, cudaMemcpyHostToDevice));
     CHECK(cudaMemcpy(d_MatB, h_B, nBytes, cudaMemcpyHostToDevice));
    
     // вызываем ядро на стороне хоста 
     int dimx = 32;
     int dimy = 32;
     dim3 block(dimx, dimy);
     dim3 grid((nx + block.x - 1) / block.x, (ny + block.y - 1) / block.y);
    iStart = cpuSecond();
    sumMatrixOnGPU2D << <grid, block >> > (d_MatA, d_MatB, d_MatC, nx, ny);
    CHECK(cudaDeviceSynchronize());
    iElaps = cpuSecond() - iStart;
    printf("sumMatrixOnGPU2D <<<(%d, %d), (%d, %d)>>> elapsed %f sec\n", grid.x, grid.y, block.x, block.y, iElaps);
    
    // проверяем ошибку ядра
     CHECK(cudaGetLastError());
 
    // копируем результаты на хост
    CHECK(cudaMemcpy(gpuRef, d_MatC, nBytes, cudaMemcpyDeviceToHost));
    // проверяем результаты устройства
     checkResult(hostRef, gpuRef, nxy);
    // очищаем глобальную память устройства
     CHECK(cudaFree(d_MatA));
     CHECK(cudaFree(d_MatB));
     CHECK(cudaFree(d_MatC));
 
    // освобождаем память хоста
     free(h_A);
     free(h_B);
     free(hostRef);
     free(gpuRef);
 
    // сбрасываем устройство
     CHECK(cudaDeviceReset());
    return (0);
}
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
15.01.2023, 20:56
Ответы с готовыми решениями:

Народ объясните как сделать, заранее спасибо
Народ может кто помочь из-за болезни пропустил много лекции, а завтра зачет. Может кто объяснить...

Объясните текст, не догоняю суть. (Заранее спасибо!)
Если вам уже приходилось использовать языки программирования более низкого уровня, такие как C или...

Объясните что такое GNU. Спасибо заранее
Правильны ли мои предположения? GNU/Linux - это ОС с ПО которое имеет открытый исходный код. ...

Найдите произведение двух целочисленных матриц n*n В полученной матрице найдите минимальный элемент и замостите им сере
Найдите произведение двух целочисленных матриц n*n. В полученной матрице найдите минимальный...

0
15.01.2023, 20:56
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
15.01.2023, 20:56
Помогаю со студенческими работами здесь

Подробно объясните работу этого кода (Заранее спасибо)
class MyWindowClass(QtGui.QMainWindow, form_class): def __init__(self, parent=None): ...

Дано натуральное число P. Найдите все делители числа P. Спасибо заранее
Дано натуральное число P. Найдите все делители числа P.

Пожалуйста, найдите неопределённый интеграл, методом замены переменной. Заранее спасибо)
Правила, 5.18. Запрещено размещать задания и решения в виде картинок и других файлов с их текстом....

Объясните пожалуйста принцип работы, что для чего и почему так, спасибо заранее
&lt;!DOCTYPE html&gt; &lt;html&gt; &lt;head&gt; &lt;script&gt; function f(){...

Какую наилучшую видеокарту можно подобрать под конфигурацию
День добрый. Подскажите, люди добрые, по одному вопросу. Имею на текущий момент конфигурацию - ...

Нужно подправить код на языке си. Заранее спасибо!
Нужно подправить код к программе на языке С и дописать 3 пункт. Создать файл, содержащий...

напишите пожалуйста код на Delphi/ заранее спасибо
1. Найти сумму отрицательных элементов массива. 2. Найти произведение элементов массива,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru