Bootstrap

使用c++进行大规模的矩阵运算

算法通过分块矩阵乘法和多线程并行计算实现了大规模矩阵乘法的高效计算

#include <iostream>
#include <vector>
#include <thread>
#include <cmath>

class LargeMatrixMultiplier {
private:
    const int BLOCK_SIZE = 64;  // 分块大小

    // 辅助函数:小规模矩阵乘法
    void multiplyBlock(const std::vector<std::vector<double>>& A,  // A矩阵
                       const std::vector<std::vector<double>>& B,  // B矩阵
                       std::vector<std::vector<double>>& C,        // C矩阵
                       int rowA, int colA, int colB) const {       // 起始行和列
        for (int i = 0; i < BLOCK_SIZE; ++i) {                     // 遍历块的行
            for (int j = 0; j < BLOCK_SIZE; ++j) {                 // 遍历块的列
                double sum = 0;                                    // 初始化累加器
                for (int k = 0; k < BLOCK_SIZE; ++k) {             // 遍历块的内部
                    sum += A[rowA + i][colA + k] * B[colA + k][colB + j];  // 累加乘积
                }
                C[rowA + i][colB + j] += sum;                      // 更新C矩阵的值
            }
        }
    }

    // 线程函数
    void multiplyBlocksThread(const std::vector<std::vector<double>>& A,  // A矩阵
                              const std::vector<std::vector<double>>& B,  // B矩阵
                              std::vector<std::vector<double>>& C,        // C矩阵
                              int startRow, int endRow) const {           // 起始行和结束行
        int n = A.size();                                                 // 获取矩阵的大小
        for (int i = startRow; i < endRow; i += BLOCK_SIZE) {             // 遍历行块
            for (int j = 0; j < n; j += BLOCK_SIZE) {                     // 遍历列块
                for (int k = 0; k < n; k += BLOCK_SIZE) {                 // 遍历内部块
                    multiplyBlock(A, B, C, i, k, j);                      // 进行块乘法
                }
            }
        }
    }

public:
    std::vector<std::vector<double>> multiply(const std::vector<std::vector<double>>& A,  // A矩阵
                                              const std::vector<std::vector<double>>& B) const {  // B矩阵
        int n = A.size();                                                             // 获取矩阵的大小
        std::vector<std::vector<double>> C(n, std::vector<double>(n, 0));             // 初始化C矩阵
        C.reserve(n);                                                                 // 预留空间

        int numThreads = std::thread::hardware_concurrency();                         // 获取硬件并发线程数
        std::vector<std::thread> threads;                                             // 存储线程

        int rowsPerThread = n / numThreads;                                           // 每个线程处理的行数
        for (int i = 0; i < numThreads; ++i) {                                        // 创建线程
            int startRow = i * rowsPerThread;                                         // 计算起始行
            int endRow = (i == numThreads - 1) ? n : (i + 1) * rowsPerThread;         // 计算结束行
            threads.emplace_back(&LargeMatrixMultiplier::multiplyBlocksThread, this,  // 创建线程
                                 std::ref(A), std::ref(B), std::ref(C), startRow, endRow); // 传递参数
        }

        for (auto& thread : threads) {                                                // 等待所有线程完成
            thread.join();                                                            // 等待线程
        }

        return C;                                                                     // 返回结果矩阵
    }
};

int main() {
    int n = 1024;  // 矩阵大小
    std::vector<std::vector<double>> A(n, std::vector<double>(n, 1.0));  // 初始化A矩阵
    std::vector<std::vector<double>> B(n, std::vector<double>(n, 2.0));  // 初始化B矩阵

    LargeMatrixMultiplier multiplier;                                     // 创建乘法器对象
    auto C = multiplier.multiply(A, B);                                   // 进行矩阵乘法

    std::cout << "Matrix multiplication completed." << std::endl;        // 输出完成信息
    std::cout << "C[0][0] = " << C[0][0] << std::endl;  // 应该是 2048.0  // 输出C矩阵的第一个元素

    return 0;  // 返回0
}

这只是一个简略的算法,具体需要根据实际情况进行修改

;