adding microbench frame
This commit is contained in:
parent
4ff2041677
commit
5cc096e9a3
|
@ -0,0 +1,42 @@
|
|||
#include <stdio.h>
|
||||
|
||||
__global__
|
||||
void saxpy(int n, float a, float *x, float *y)
|
||||
{
|
||||
int i = blockIdx.x*blockDim.x + threadIdx.x;
|
||||
if (i < n) y[i] = a*x[i] + y[i];
|
||||
}
|
||||
|
||||
int main(void)
|
||||
{
|
||||
int N = 1<<20;
|
||||
float *x, *y, *d_x, *d_y;
|
||||
x = (float*)malloc(N*sizeof(float));
|
||||
y = (float*)malloc(N*sizeof(float));
|
||||
|
||||
cudaMalloc(&d_x, N*sizeof(float));
|
||||
cudaMalloc(&d_y, N*sizeof(float));
|
||||
|
||||
for (int i = 0; i < N; i++) {
|
||||
x[i] = 1.0f;
|
||||
y[i] = 2.0f;
|
||||
}
|
||||
|
||||
cudaMemcpy(d_x, x, N*sizeof(float), cudaMemcpyHostToDevice);
|
||||
cudaMemcpy(d_y, y, N*sizeof(float), cudaMemcpyHostToDevice);
|
||||
|
||||
// Perform SAXPY on 1M elements
|
||||
// saxpy<<<(N+255)/256, 256>>>(N, 2.0f, d_x, d_y);
|
||||
|
||||
cudaMemcpy(y, d_y, N*sizeof(float), cudaMemcpyDeviceToHost);
|
||||
|
||||
float maxError = 0.0f;
|
||||
for (int i = 0; i < N; i++)
|
||||
maxError = max(maxError, abs(y[i]-4.0f));
|
||||
printf("Max error: %f\n", maxError);
|
||||
|
||||
cudaFree(d_x);
|
||||
cudaFree(d_y);
|
||||
free(x);
|
||||
free(y);
|
||||
}
|
|
@ -0,0 +1,42 @@
|
|||
#include <stdio.h>
|
||||
|
||||
__global__
|
||||
void saxpy(void)
|
||||
{
|
||||
int i = blockIdx.x*blockDim.x + threadIdx.x;
|
||||
printf("block_id:%d thread_id:%d \n", i)
|
||||
}
|
||||
|
||||
int main(void)
|
||||
{
|
||||
int N = 1<<20;
|
||||
float *x, *y, *d_x, *d_y;
|
||||
x = (float*)malloc(N*sizeof(float));
|
||||
y = (float*)malloc(N*sizeof(float));
|
||||
|
||||
cudaMalloc(&d_x, N*sizeof(float));
|
||||
cudaMalloc(&d_y, N*sizeof(float));
|
||||
|
||||
for (int i = 0; i < N; i++) {
|
||||
x[i] = 1.0f;
|
||||
y[i] = 2.0f;
|
||||
}
|
||||
|
||||
cudaMemcpy(d_x, x, N*sizeof(float), cudaMemcpyHostToDevice);
|
||||
cudaMemcpy(d_y, y, N*sizeof(float), cudaMemcpyHostToDevice);
|
||||
|
||||
// Perform SAXPY on 1M elements
|
||||
saxpy<<<(1,1)>>>;
|
||||
|
||||
cudaMemcpy(y, d_y, N*sizeof(float), cudaMemcpyDeviceToHost);
|
||||
|
||||
float maxError = 0.0f;
|
||||
for (int i = 0; i < N; i++)
|
||||
maxError = max(maxError, abs(y[i]-4.0f));
|
||||
printf("Max error: %f\n", maxError);
|
||||
|
||||
cudaFree(d_x);
|
||||
cudaFree(d_y);
|
||||
free(x);
|
||||
free(y);
|
||||
}
|
|
@ -0,0 +1,41 @@
|
|||
#include <stdio.h>
|
||||
|
||||
__global__
|
||||
void saxpy(int N)
|
||||
{
|
||||
printf("hello!: %d\n", N);
|
||||
}
|
||||
|
||||
int main(void)
|
||||
{
|
||||
int N = 1<<20;
|
||||
float *x, *y, *d_x, *d_y;
|
||||
x = (float*)malloc(N*sizeof(float));
|
||||
y = (float*)malloc(N*sizeof(float));
|
||||
|
||||
cudaMalloc(&d_x, N*sizeof(float));
|
||||
cudaMalloc(&d_y, N*sizeof(float));
|
||||
|
||||
for (int i = 0; i < N; i++) {
|
||||
x[i] = 1.0f;
|
||||
y[i] = 2.0f;
|
||||
}
|
||||
|
||||
cudaMemcpy(d_x, x, N*sizeof(float), cudaMemcpyHostToDevice);
|
||||
cudaMemcpy(d_y, y, N*sizeof(float), cudaMemcpyHostToDevice);
|
||||
|
||||
// Perform SAXPY on 1M elements
|
||||
saxpy<<<(1,1)>>>(N);
|
||||
|
||||
cudaMemcpy(y, d_y, N*sizeof(float), cudaMemcpyDeviceToHost);
|
||||
|
||||
float maxError = 0.0f;
|
||||
for (int i = 0; i < N; i++)
|
||||
maxError = max(maxError, abs(y[i]-4.0f));
|
||||
printf("Max error: %f\n", maxError);
|
||||
|
||||
cudaFree(d_x);
|
||||
cudaFree(d_y);
|
||||
free(x);
|
||||
free(y);
|
||||
}
|
|
@ -0,0 +1,41 @@
|
|||
#include <stdio.h>
|
||||
|
||||
__global__
|
||||
void saxpy(void)
|
||||
{
|
||||
printf("hello!\n");
|
||||
}
|
||||
|
||||
int main(void)
|
||||
{
|
||||
int N = 1<<20;
|
||||
float *x, *y, *d_x, *d_y;
|
||||
x = (float*)malloc(N*sizeof(float));
|
||||
y = (float*)malloc(N*sizeof(float));
|
||||
|
||||
cudaMalloc(&d_x, N*sizeof(float));
|
||||
cudaMalloc(&d_y, N*sizeof(float));
|
||||
|
||||
for (int i = 0; i < N; i++) {
|
||||
x[i] = 1.0f;
|
||||
y[i] = 2.0f;
|
||||
}
|
||||
|
||||
cudaMemcpy(d_x, x, N*sizeof(float), cudaMemcpyHostToDevice);
|
||||
cudaMemcpy(d_y, y, N*sizeof(float), cudaMemcpyHostToDevice);
|
||||
|
||||
// Perform SAXPY on 1M elements
|
||||
saxpy<<<(1,1)>>>;
|
||||
|
||||
cudaMemcpy(y, d_y, N*sizeof(float), cudaMemcpyDeviceToHost);
|
||||
|
||||
float maxError = 0.0f;
|
||||
for (int i = 0; i < N; i++)
|
||||
maxError = max(maxError, abs(y[i]-4.0f));
|
||||
printf("Max error: %f\n", maxError);
|
||||
|
||||
cudaFree(d_x);
|
||||
cudaFree(d_y);
|
||||
free(x);
|
||||
free(y);
|
||||
}
|
Loading…
Reference in New Issue