原文地址:http://blog.csdn.net/seu07201213/archive/2006/09/03/1159991.aspx
Windows对文件的读写提供了很丰富的操作手段,如:
1. FILE *fp, fstearm...; (C/C++)
2. CFile, CStdioFile...; (MFC)
3. CreateFile, ReadFile...;(API)
在处理一般的文件(文本/非文本),这些足够了。然而在处理比较大的文件如
几十M, 几百M, 甚至上G的文件, 这时再用一般手段处理,系统就显的力不从心了
要把文件读出,再写进,耗费的是CPU利用率与内存以及IO的频繁操作。这显然是
令用户难以忍受的
为了解决这个吃内存,占CPU,以及IO瓶颈,windows核心编程提供了内存映射文件技术
(Maping File)
至于Maping File是什么原理,我不多说了,网上转载资源一箩筐,我只想从应用层
来考虑,怎样用这个技术,实现日常项目中的应用
举例来说:
可能项目中,会经常用到一些大量的常量,而这些大量常量用宏来替代写再源文件中
显然不可取,一般是写在文件中,给常量一些编号,通过编号来索引
一般文件比较小时候,常用做法也是先预读到内存中,毕竟从内存中读比从文件中读要快(IO操作的瓶颈)
比较好的做法,读到STL MAP 中去:
例如一个索引文件:
SEU07201213=汪洋中的一片叶子
JIANGSHENG=蒋晟
SEU07201214=CSDN
............
打开文件,解析=号,在解析方面有CString操作,strtok,strstr, boost 正则表达式匹配等等,但我比较喜欢
- sscanf(szIndex, "[%^=]=[%^=]", sName, sValue);
- sscanf(szIndex, "[%^=]=%s", sName, sValue);
- fscanf(stream, "[%^=]=[%^=]", sName, sValue);
sscanf(szIndex, "[%^=]=[%^=]", sName, sValue); sscanf(szIndex, "[%^=]=%s", sName, sValue); fscanf(stream, "[%^=]=[%^=]", sName, sValue);
之类,
然后再定义一个map:
- map<string, string> m_Map;
- m_Map[sName] = sValue;
map<string, string> m_Map; m_Map[sName] = sValue;
但是文件比较大的时候,笔者做过测试,用上面方法处理一个15M, 25万行的文本文件,占用内存非常
的高,达70多M,处理的速度也非常的慢,这还不包括回写到文件
这时,Maping File就派上用场了,这里处理大文件就抛弃了map的应用(因为容器占用很多内存)
而是直接利用字符指针来操作,不用其他封装,不多说了,请看示例:
- #pragma warning(disable: 4786)
- #include <windows.h>
- #include <stdio.h>
- #include <iostream>
- #include <string>
- using namespace std;
- string GetValue(const TCHAR *, const TCHAR *); //根据name得value
- void main(int argc, char* argv[])
- {
- // 创建文件对象(C: est.tsr)
- HANDLE hFile = CreateFile("C:\test.tsr", GENERIC_READ | GENERIC_WRITE,
- 0, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL);
- if (hFile == INVALID_HANDLE_VALUE)
- {
- printf("创建文件对象失败,错误代码:%d ", GetLastError());
- return;
- }
- // 创建文件映射对象
- HANDLE hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, 0, NULL);
- if (hFileMap == NULL)
- {
- printf("创建文件映射对象失败,错误代码:%d ", GetLastError());
- return;
- }
- // 得到系统分配粒度
- SYSTEM_INFO SysInfo;
- GetSystemInfo(&SysInfo);
- DWORD dwGran = SysInfo.dwAllocationGranularity;
- // 得到文件尺寸
- DWORD dwFileSizeHigh;
- __int64 qwFileSize = GetFileSize(hFile, &dwFileSizeHigh);
- qwFileSize |= (((__int64)dwFileSizeHigh) << 32);
- // 关闭文件对象
- CloseHandle(hFile);
- // 偏移地址
- __int64 qwFileOffset = 0;
- // 块大小
- DWORD dwBlockBytes = 1000 * dwGran;
- if (qwFileSize < 1000 * dwGran)
- dwBlockBytes = (DWORD)qwFileSize;
- if (qwFileOffset >= 0)
- {
- // 映射视图
- TCHAR *lpbMapAddress = (TCHAR *)MapViewOfFile(hFileMap,FILE_MAP_ALL_ACCESS,
- 0, 0,
- dwBlockBytes);
- if (lpbMapAddress == NULL)
- {
- printf("映射文件映射失败,错误代码:%d ", GetLastError());
- return;
- }
- //-----------------------访问数据开始-------------------------
- cout<<GetValue(lpbMapAddress,"SEU07201213")<<endl;
- getchar();
- //-----------------------访问数据结束-------------------------
- // 撤销文件映像
- UnmapViewOfFile(lpbMapAddress);
- }
- // 关闭文件映射对象句柄
- CloseHandle(hFileMap);
- }
- string GetValue(const TCHAR *lpbMapAddress, const TCHAR *sName)
- {
- string sValue; // 存放 = 后面的value值
- TCHAR *p1 = NULL, *p2 = NULL; // 字符指针
- if((p1 = strstr(lpbMapAddress,sName)) != NULL) // 查找sName出现位置
- {
- if(p2 = strstr(p1,"\r\n")) *p2 = '\0'; // 查找"\r\n"(换行)出现位置
- sValue = p1+strlen(sName)+strlen("="); // 指针移动"sName"+"="之后
- *p2 = '\r'; // 还原*p2值,因为不还原会改变原文件结构
- }
- return sValue;
- }
#pragma warning(disable: 4786) #include <windows.h> #include <stdio.h> #include <iostream> #include <string> using namespace std; string GetValue(const TCHAR *, const TCHAR *); //根据name得value void main(int argc, char* argv[]) { // 创建文件对象(C: est.tsr) HANDLE hFile = CreateFile("C:\test.tsr", GENERIC_READ | GENERIC_WRITE, 0, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL); if (hFile == INVALID_HANDLE_VALUE) { printf("创建文件对象失败,错误代码:%d ", GetLastError()); return; } // 创建文件映射对象 HANDLE hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, 0, NULL); if (hFileMap == NULL) { printf("创建文件映射对象失败,错误代码:%d ", GetLastError()); return; } // 得到系统分配粒度 SYSTEM_INFO SysInfo; GetSystemInfo(&SysInfo); DWORD dwGran = SysInfo.dwAllocationGranularity; // 得到文件尺寸 DWORD dwFileSizeHigh; __int64 qwFileSize = GetFileSize(hFile, &dwFileSizeHigh); qwFileSize |= (((__int64)dwFileSizeHigh) << 32); // 关闭文件对象 CloseHandle(hFile); // 偏移地址 __int64 qwFileOffset = 0; // 块大小 DWORD dwBlockBytes = 1000 * dwGran; if (qwFileSize < 1000 * dwGran) dwBlockBytes = (DWORD)qwFileSize; if (qwFileOffset >= 0) { // 映射视图 TCHAR *lpbMapAddress = (TCHAR *)MapViewOfFile(hFileMap,FILE_MAP_ALL_ACCESS, 0, 0, dwBlockBytes); if (lpbMapAddress == NULL) { printf("映射文件映射失败,错误代码:%d ", GetLastError()); return; } //-----------------------访问数据开始------------------------- cout<<GetValue(lpbMapAddress,"SEU07201213")<<endl; getchar(); //-----------------------访问数据结束------------------------- // 撤销文件映像 UnmapViewOfFile(lpbMapAddress); } // 关闭文件映射对象句柄 CloseHandle(hFileMap); } string GetValue(const TCHAR *lpbMapAddress, const TCHAR *sName) { string sValue; // 存放 = 后面的value值 TCHAR *p1 = NULL, *p2 = NULL; // 字符指针 if((p1 = strstr(lpbMapAddress,sName)) != NULL) // 查找sName出现位置 { if(p2 = strstr(p1,"\r\n")) *p2 = '\0'; // 查找"\r\n"(换行)出现位置 sValue = p1+strlen(sName)+strlen("="); // 指针移动"sName"+"="之后 *p2 = '\r'; // 还原*p2值,因为不还原会改变原文件结构 } return sValue; }
以上实现了根据索引name匹配value的简单过程,经测试,同样25W行文件,匹配耗费1秒不到,且
不占本进程内存。
以上修改lpbMapAddress任意处值,也不需要重新回写到文件,真正是大大提高了文件读与写的效率
另外的一篇博客摘录了使用C#实现的,
- public class LargeFile{
- public static void main(String[] args) throws Exception {
- long length = 0x8ffffff;
- MappedByteBuffer out = new RandomAccessFile("G:\a.dat", "rw").getChannel()
- .map(FileChannel.MapMode.READ_WRITE, 0, length);
- for (int i = 0; i < length; i++)
- out.put((byte) 'x');
- System.out.println("Finished writing");
- for (int i = 0; i < 10; i++)
- System.out.println((char) out.get(i)); // read file
- }
- }
public class LargeFile{ public static void main(String[] args) throws Exception { long length = 0x8ffffff; MappedByteBuffer out = new RandomAccessFile("G:\a.dat", "rw").getChannel() .map(FileChannel.MapMode.READ_WRITE, 0, length); for (int i = 0; i < length; i++) out.put((byte) 'x'); System.out.println("Finished writing"); for (int i = 0; i < 10; i++) System.out.println((char) out.get(i)); // read file } }