红联Linux门户
Linux帮助

Linux内存管理和分析vmalloc使用的地址范围

发布时间:2014-12-16 09:53:31来源:linux网站作者:dubingsky

Vmalloc可以获得的地址在VMALLOC_START到VMALLOC_END的范围中。这两个符号在<asm/pgtable.h>中定义:

/* include/asm/pgtable.h */

#define VMALLOC_OFFSET   (8*1024*1024)

#define VMALLOC_START (((unsigned long)high_memory + VMALLOC_OFFSET) & ~(VMALLOC_OFFSET-1))

………

high_memory值在这里定义:

/* arch/arm/mm/init.c */

void __init bootmem_init(struct meminfo *mi)

{

……

high_memory = __va(memend_pfn << PAGE_SHIFT);

}

在我们的板子上,这些值为:

high_mem = 0xc4000000  <---------3G+64M  , high_memory既实际内存最大物理地址对应的的内核逻辑地址

VMALLOC_START = 0xc4800000 <---------3G+64M+8M  (8M为内核规定的一个gap) ,vmalloc分配的起始地址(内核空间)

我在kernel里加了一些打印信息,打印出的结果如下:

Starting kernel ...

Linux version 2.6.18_pro500-omap5912_osk (root@Ubuntu) (gcc version 4.2.0 20070319 (prerelease) (MontaVista 4.2.0-4.0.0.0702865 2007-03-26)) #36 Mon Jun 16 16:29:30 CST 2008

CPU: ARM926EJ-S [41069265] revision 5 (ARMv5TEJ), cr=00053177

Machine:

Memory policy: ECC disabled, Data cache writeback

high_mem = 0xc4000000 --------------------

vmalloc_start = 0xc4800000 ----------------------

…………

The following is the vmalloc test processing:

/* Vmalloc Test Module */

……

static int __init tcm_init(void)

{

struct resource * ret;

unsigned long * vaddr1 = NULL;

unsigned long * vaddr2 = NULL;

……

vaddr1 = vmalloc ( PAGE_SIZE );

printk("vaddr1  = 0x%p \n", vaddr1);

vaddr2 = vmalloc ( PAGE_SIZE );

printk("vaddr2  = 0x%p \n", vaddr2);

vfree(vaddr1);

vfree(vaddr2);

……

}

……

module_init(tcm_init);

module_exit(tcm_exit);

The running result:

# insmod tcm1.ko

vaddr1  = 0xc487a000  ? vmalloc分配的地址,大于0xc3ffffff (3G+64M)

vaddr2  = 0xc487c000

 

参考资料: (摘自《Linux 内存管理》)

……

vmalloc分配的内核虚拟内存与kmalloc/get_free_page分配的内核虚拟内存位于不同的区间,不会重叠。因为内核虚拟空间被分区管理,各司其职。进程空间地址分布从0到3G(其实是到PAGE_OFFSET, 在0x86中它等于0xC0000000),从3G到vmalloc_start这段地址是物理内存映射区域(该区域中包含了内核镜像、物理页面表mem_map等等)比如我使用的系统内存是64M(可以用free看到),那么(3G——3G+64M)这片内存就应该映射到物理内存,而vmalloc_start位置应在3G+64M附近(说"附近"因为是在物理内存映射区与vmalloc_start期间还会存在一个8M大小的gap来防止跃界),vmalloc_end的位置接近4G(说"接近"是因为最

后位置系统会保留一片128k大小的区域用于专用页面映射,还有可能会有高端内存映射区,这些都是细节,这里我们不做纠缠)。

由get_free_page或Kmalloc函数所分配的连续内存都陷于物理映射区域,所以它们返回的内核虚拟地址和实际物理地址仅仅是相差一个偏移量(PAGE_OFFSET),你可以很方便的将其转化为物理内存地址,同时内核也提供了virt_to_phys()函数将内核虚拟空间中的物理映射区地址转化为物理地址。要知道,物理内存映射区中的地址与内核页表是有序对应的,系统中的每个物理页面都可以找到它对应的内核虚拟地址(在物理内存映射区中的)。

而vmalloc分配的地址则限于vmalloc_start与vmalloc_end之间。每一块vmalloc分配的内核虚拟内存都对应一个vm_struct结构体(可别和vm_area_struct搞混,那可是进程虚拟内存区域的结构),不同的内核虚拟地址被4k大小的空闲区间隔,以防止越界)。与进程虚拟地址的特性一样,这些虚拟地址与物理内存没有简单的位移关系,必须通过内核页表才可转换为物理地址或物理页。它们有可能尚未被映射,在发生缺页时才真正分配物理页面。

一、内存管理单元MMU
MMU辅助操作系统进行内存管理、提供虚拟地址和物理地址的映射、内存访问权限保护和Cache缓存控制等硬件支持,可见,这将使得Linux操作系统能单独为系统的每个用户分配独立的内存空间并保证用户空间不能访问内核空间的地址,为操作系统的虚拟内存管理模块提供了硬件基础。
在s3c2410的vivi这个bootloader中,建立了一个4GB物理地址与虚拟地址一一映射的一级页表,我们可以通过函数mem_mapping_linear()来探寻一下其创建过程

static inline void mem_mapping_linear(void)
{
  unsigned long pageoffset, sectionNumber;
  /*4GB虚拟地址映射到相应的物理地址上,均不能缓存*/
  for (sectionNumber = 0; sectionNumber < 4096; sectionNumber++)
  {
pageoffset = (sectionNumber << 20);
*(mmu_tlb_base + (pageoffset >> 20)) = pageoffset | MMU_SECDESC;
//mmu_tlb_base为存放页表的首地址,tlb是转换旁路缓存,是转换表的Cache
  }
  /*使能DRAM的区域可缓存*/
  /*SDRAM物理地址0x30000000-0x33ffffff,DRAM_BASE=0x30000000,DRAM_SIZE=64M*/
  for (pageoffset = DRAM_BASE; pageoffset < (DRAM_BASE + DRAM_SIZE); pageoffset += SZ_1M)
  {
*(mmu_tlb_base + (pageoffset >> 20)) = pageoffset | MMU_SECDESC | MMU_CACHEEABLE;
  }
}

这里使用了ARM920T内存映射的Section模式(实际等同于页大小为1MB的情况),将4GB的虚拟内存空间分为4096个段,因此我们用4096个描述符来对这组段进行描述。这4096个描述符构成的表格就是转换表,保存在MMU的TLB中。
 
二、内核空间内存动态申请
在Linux内核空间申请内存涉及的函数主要包括kmalloc()、__get_free_pages()和vmalloc()。kmalloc()、__get_free_pages()申请的内存位于物理内存映射区域,而且物理上也是连续的,它们与真实的物理地址只有一个固定的偏移,而vmalloc()在虚拟内存空间给出一块连续的内存区,实际上,这片连续的虚拟内存在物理内存中并不一定连续。vmalloc()一般用在为较大的顺序缓冲区分配内存,vmalloc()的开销远大于__get_free_pages(),为了完成vmalloc(),需要建立新的页表。
另外还有slab和内存池,这里不进行详述,可参考相关资料。
对于内核内存空间映射区的虚拟内存(如kmalloc分配的内存),使用virt_to_phys()可以实现内核虚拟地址转化为物理地址,与之对应的函数为phys_to_virt(),它将物理地址转化为内核虚拟地址。
 
三、将设备地址映射到用户空间
一般情况下,用户空间不会也不应该直接访问设备的,但是,设备驱动程序中可实现mmap()函数,这个函数可使得用户空间能直接访问设备的物理地址。实际上,mmap实现了一个映射过程:将用户空间的一段内存与设备内存空间相关联,当用户访问用户空间的这段地址范围时,事实上转化成对设备的访问。
这个特性对显示设备非常有意义,如果用户空间可直接用过内存映射访问显存的话,屏幕帧的各点像素将不再需要从用户空间复制到内核空间。
我们看看mmap的系统调用原型:

caddr_t mmap(caddr_t addr, size_t len, int prot, int flags, int fd, off_t offset);

/*

**参数fd为文件描述符,

**len是映射到用户空间的字节数,它从被映射文件开头offset开始算起

**prot指定访问权限,PROT_READ(可读)、PROT_WRITE(可写)、PROT_EXEC(可执行)、PROT_NONE(不可访问)

**参数addr指定文件应被映射到用户空间的起始地址,一般为NULL,这样起始地址的任务将由内核完成,而函数返回值就是映射到用户空间的地址

*/

当用户调用mmap()时,内核会进行如下处理:

1、在进程的虚拟空间查找一块VMA

2、将这块VMA进行映射到设备地址空间,如果file_operations定义了mmap()操作,则调用它

3、将这个VMA插入到进程的VMA链表中

vm_operations_struct操作范例,取自fbmem.c

static int
fb_mmap(struct file *file, struct vm_area_struct * vma)
{
int fbidx = iminor(file->f_path.dentry->d_inode);
struct fb_info *info = registered_fb[fbidx];
struct fb_ops *fb = info->fbops;
unsigned long off;
unsigned long start;
u32 len;

if (vma->vm_pgoff > (~0UL >> PAGE_SHIFT))
return -EINVAL;
off = vma->vm_pgoff << PAGE_SHIFT;
if (!fb)
return -ENODEV;
if (fb->fb_mmap) {
int res;
lock_kernel();
res = fb->fb_mmap(info, vma);
unlock_kernel();
return res;
}

lock_kernel();

/* frame buffer memory */
start = info->fix.smem_start;
len = PAGE_ALIGN((start & ~PAGE_MASK) + info->fix.smem_len);
if (off >= len) {
/* memory mapped io */
off -= len;
if (info->var.accel_flags) {
unlock_kernel();
return -EINVAL;
}
start = info->fix.mmio_start;
len = PAGE_ALIGN((start & ~PAGE_MASK) + info->fix.mmio_len);
}
unlock_kernel();
start &= PAGE_MASK;
if ((vma->vm_end - vma->vm_start + off) > len)
return -EINVAL;
off += start;
vma->vm_pgoff = off >> PAGE_SHIFT;
/* This is an IO map - tell maydump to skip this VMA */
vma->vm_flags |= VM_IO | VM_RESERVED;
fb_pgprotect(file, vma, off);
if (io_remap_pfn_range(vma, vma->vm_start, off >> PAGE_SHIFT,
 vma->vm_end - vma->vm_start, vma->vm_page_prot))
return -EAGAIN;
return 0;
}

/*

**这段代码的核心是io_remap_pfn_range(vma, vma->vm_start, off >> PAGE_SHIFT, vma->vm_end - vma->vm_start, vma->vm_page_prot))
**其中vma->vm_start就是用户内存映射开始处的虚拟地址
**vma->vm_end - vma->vm_start是映射的虚拟地址范围
**而off >> PAGE_SHIFT是虚拟地址应该映射到的物理地址off的页帧号,实际上就是物理地址off右移了PAGE_SHIFT位:
off = vma->vm_pgoff << PAGE_SHIFT;
start = info->fix.smem_start;//smem_start是显存的起始物理地址
start &= PAGE_MASK;
off += start;
**从上述过程可以看出,将显存的物理地址的页帧号映射到用户空间的虚拟地址上

**mmap必须以PAGE_SIZE为单位进行映射,实际上内存只能以页为单位进行映射,如果非PAGE_SIZE整数倍的地址范围,要先进行页对齐,强行以PAGE_SIZE的倍数大小进行映射

*/

在驱动程序中,我们能使用remap_pfn_range()映射内存中的保留页和设备IO内存,另外kmalloc申请的内存若要被映射到用户空间可以通过mem_map_reserve()设置为保留后进行。这个特性可用于用户程序要频繁将数据写到设备中的buffer时,这样可以减少系统read、write等调用开销。
【Note】:mem_map_reserve是2.4版本内核的函数,2.6内核用SetPageReserved取代之
映射kmalloc申请的内存到用户空间范例

/*内核模块加载函数*/
int __init kmalloc_map_init(void)
{
//申请设备号,添加cdev结构体
buffer = kmalloc(BUFFER_SIZE, GFP_KERNEL);
for (page = virt_to_page(buffer); page < virt_to_page(buffer + BUFFER_SIZE); page++)
{
mem_map_reserve(page);//置页为保留,virt_to_page()将内核虚拟地址转化为页
}
}
/*mmap()函数*/
static int kmalloc_map_mmap(struct file *filp, struct vm_area_struct *vma)
{
unsigned long page, pos;
unsigned long start = (unsigned long)vma->vm_start;
unsigned long size = (unsigned long)(vma->vm_end - vma->vm_start);
if (size > BUFFER_SIZE)
{
return - EINVAL;
}
pos = (unsigned long)buffer;
/*映射buffer中的所有页*/
while (size > 0)
{
page = virt_to_phys((void *)pos);
if (remap_page_range(start, page, PAGE_SIZE, PAGE_SHARED))
return - EAGAIN;
start += PAGE_SIZE;
pos += PAGE_SIZE;
size -= PAGE_SIZE;
}

/*

**可否用io_remap_pfn_range(vma, vma->vm_start, virt_to_phys((void *)buffer) >> PAGE_SHIFT, vma->vm_end - vma->vm_start, PAGE_SHARED)来替代remap_page_range?

**在Linux kernel 2.6.27中,已经找不到remap_page_range的实现,见Linux kernel change log: Changes remap_page_range to remap_pfn_range for 2.6.10 and above kernels

*/
return 0;
}


以下有关内存管理的内容转自frank_seng大侠的帖子:
说得极其简炼易懂,我实在非常佩服。
 
1. 内核初始化:

* 内核建立好内核页目录页表数据库,假设物理内存大小为len,则建立了[3G--3G+len]::[0--len]这样的虚地址vaddr和物理地址paddr的线性对应关系;
* 内核建立一个page数组,page数组和物理页面系列完全是线性对应,page用来管理该物理页面状态,每个物理页面的虚地址保存在page->virtual中;
* 内核建立好一个free_list,将没有使用的物理页面对应的page放入其中,已经使用的就不用放入了;

2. 内核模块申请内存vaddr = get_free_pages(mask,order):

* 内存管理模块从free_list找到一个page,将page->virtual作为返回值,该返回值就是对应物理页面的虚地址;
* 将page从free_list中脱离;
* 模块使用该虚拟地址操作对应的物理内存;

3. 内核模块使用vaddr,例如执行指令mov(eax, vaddr):

* CPU获得vaddr这个虚地址,利用建立好的页目录页表数据库,找到其对应的物理内存地址;
* 将eax的内容写入vaddr对应的物理内存地址内;

4. 内核模块释放内存free_pages(vaddr,order):

* 依据vaddr找到对应的page;
* 将该page加入到free_list中;

5. 用户进程申请内存vaddr = malloc(size):

* 内存管理模块从用户进程内存空间(0--3G)中找到一块还没使用的空间vm_area_struct(start--end);
* 随后将其插入到task->mm->mmap链表中;

6. 用户进程写入vaddr(0-3G),例如执行指令mov(eax, vaddr):

* CPU获得vaddr这个虚地址,该虚地址应该已经由glibc库设置好了,一定在3G一下的某个区域,根据CR3寄存器指向的current->pgd查当前进程的页目录页表数据库,发现该vaddr对应的页目录表项为0,故产生异常;
* 在异常处理中,发现该vaddr对应的vm_area_struct已经存在,为vaddr对应的页目录表项分配一个页表;
* 随后从free_list找到一个page,将该page对应的物理页面物理首地址赋给vaddr对应的页表表项,很明显,此时的vaddr和paddr不是线性对应关系了;
* 将page从free_list中脱离;
* 异常处理返回;
* CPU重新执行刚刚发生异常的指令mov(eax, vaddr);
* CPU获得vaddr这个虚地址,根据CR3寄存器指向的current->pgd,利用建立好的页目录页表数据库,找到其对应的物理内存地址;
* 将eax的内容写入vaddr对应的物理内存地址内; 

7. 用户进程释放内存vaddr,free(vaddr):

* 找到该vaddr所在的vm_area_struct;
* 找到vm_area_struct:start--end对应的所有页目录页表项,清空对应的所有页表项;
* 释放这些页表项指向物理页面所对应的page,并将这些page加入到free_list队列中;
* 有必要还会清空一些页目录表项,并释放这些页目录表项指向的页表;
* 从task->mm->mmap链中删除该vm_area_struct并释放掉;

综合说明:

* 可用物理内存就是free_list中各page对应的物理内存;
* 页目录页表数据库的主要目的是为CPU访问物理内存时转换vaddr-->paddr使用,分配以及释放内存时不会用到,但是需要内核内存管理系统在合适时机为CPU建立好该库;
* 对于用户进程在6中获得的物理页面,有两个页表项对应,一个就是内核页目录页表数据库的某个pte[i ],一个就是当前进程内核页目录页表数据库的某个 pte[j],但是只有一个page和其对应。如果此时调度到其他进程,其他进程申请并访问某个内存,则不会涉及到该物理页面,因为其分配时首先要从 free_list中找一个page,而该物理页面对应的page已经从free_list中脱离出来了,因此不存在该物理页面被其他进程改写操作的情况。内核中通过get_free_pages等方式获取内存时,也不会涉及到该物理页面,原理同前所述。