Matrix Multiplication

performance optimization via register use and cache reuse in cpu and in gpu using CUDA with dynamically allocated matrix multiplication

CPU instructions

cd cpu
make compiles all source files
make test executes the cli
make valgrind runs valgrind
make clean removes outputted files

GPU instructions

cd gpu
make compile compiles and link all source files
chmod +x submit.sh make shell script executable
run_gpu submit.sh use script to run on gpu
vi output_filename view performance
gcc read.c compile reader program
./a.out output_matrix.mtx view outputted matrix
make clean removes outputted files

Course Information

CS 481 - High Performance Computing, Instructor: Dingwen Tao