Blame - mm/khugepaged.c - kernel/msm-4.19

blob: 639047cc6ea7936db50bc426dab1622e13ff041b [file] [log] [blame]

Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	1	#define pr_fmt(fmt) KBUILD_MODNAME ": " fmt
				2
				3	#include <linux/mm.h>
				4	#include <linux/sched.h>
				5	#include <linux/mmu_notifier.h>
				6	#include <linux/rmap.h>
				7	#include <linux/swap.h>
				8	#include <linux/mm_inline.h>
				9	#include <linux/kthread.h>
				10	#include <linux/khugepaged.h>
				11	#include <linux/freezer.h>
				12	#include <linux/mman.h>
				13	#include <linux/hashtable.h>
				14	#include <linux/userfaultfd_k.h>
				15	#include <linux/page_idle.h>
				16	#include <linux/swapops.h>
				17
				18	#include <asm/tlb.h>
				19	#include <asm/pgalloc.h>
				20	#include "internal.h"
				21
				22	enum scan_result {
				23	SCAN_FAIL,
				24	SCAN_SUCCEED,
				25	SCAN_PMD_NULL,
				26	SCAN_EXCEED_NONE_PTE,
				27	SCAN_PTE_NON_PRESENT,
				28	SCAN_PAGE_RO,
				29	SCAN_NO_REFERENCED_PAGE,
				30	SCAN_PAGE_NULL,
				31	SCAN_SCAN_ABORT,
				32	SCAN_PAGE_COUNT,
				33	SCAN_PAGE_LRU,
				34	SCAN_PAGE_LOCK,
				35	SCAN_PAGE_ANON,
				36	SCAN_PAGE_COMPOUND,
				37	SCAN_ANY_PROCESS,
				38	SCAN_VMA_NULL,
				39	SCAN_VMA_CHECK,
				40	SCAN_ADDRESS_RANGE,
				41	SCAN_SWAP_CACHE_PAGE,
				42	SCAN_DEL_PAGE_LRU,
				43	SCAN_ALLOC_HUGE_PAGE_FAIL,
				44	SCAN_CGROUP_CHARGE_FAIL,
				45	SCAN_EXCEED_SWAP_PTE
				46	};
				47
				48	#define CREATE_TRACE_POINTS
				49	#include <trace/events/huge_memory.h>
				50
				51	/* default scan 8512 pte (or vmas) every 30 second /
				52	static unsigned int khugepaged_pages_to_scan __read_mostly;
				53	static unsigned int khugepaged_pages_collapsed;
				54	static unsigned int khugepaged_full_scans;
				55	static unsigned int khugepaged_scan_sleep_millisecs __read_mostly = 10000;
				56	/* during fragmentation poll the hugepage allocator once every minute */
				57	static unsigned int khugepaged_alloc_sleep_millisecs __read_mostly = 60000;
				58	static unsigned long khugepaged_sleep_expire;
				59	static DEFINE_SPINLOCK(khugepaged_mm_lock);
				60	static DECLARE_WAIT_QUEUE_HEAD(khugepaged_wait);
				61	/*
				62	* default collapse hugepages if there is at least one pte mapped like
				63	* it would have happened if the vma was large enough during page
				64	* fault.
				65	*/
				66	static unsigned int khugepaged_max_ptes_none __read_mostly;
				67	static unsigned int khugepaged_max_ptes_swap __read_mostly;
				68
				69	#define MM_SLOTS_HASH_BITS 10
				70	static __read_mostly DEFINE_HASHTABLE(mm_slots_hash, MM_SLOTS_HASH_BITS);
				71
				72	static struct kmem_cache *mm_slot_cache __read_mostly;
				73
				74	/**
				75	* struct mm_slot - hash lookup from mm to mm_slot
				76	* @hash: hash collision list
				77	* @mm_node: khugepaged scan list headed in khugepaged_scan.mm_head
				78	* @mm: the mm that this information is valid for
				79	*/
				80	struct mm_slot {
				81	struct hlist_node hash;
				82	struct list_head mm_node;
				83	struct mm_struct *mm;
				84	};
				85
				86	/**
				87	* struct khugepaged_scan - cursor for scanning
				88	* @mm_head: the head of the mm list to scan
				89	* @mm_slot: the current mm_slot we are scanning
				90	* @address: the next address inside that to be scanned
				91	*
				92	* There is only the one khugepaged_scan instance of this cursor structure.
				93	*/
				94	struct khugepaged_scan {
				95	struct list_head mm_head;
				96	struct mm_slot *mm_slot;
				97	unsigned long address;
				98	};
				99
				100	static struct khugepaged_scan khugepaged_scan = {
				101	.mm_head = LIST_HEAD_INIT(khugepaged_scan.mm_head),
				102	};
				103
				104	static ssize_t scan_sleep_millisecs_show(struct kobject *kobj,
				105	struct kobj_attribute *attr,
				106	char *buf)
				107	{
				108	return sprintf(buf, "%u\n", khugepaged_scan_sleep_millisecs);
				109	}
				110
				111	static ssize_t scan_sleep_millisecs_store(struct kobject *kobj,
				112	struct kobj_attribute *attr,
				113	const char *buf, size_t count)
				114	{
				115	unsigned long msecs;
				116	int err;
				117
				118	err = kstrtoul(buf, 10, &msecs);
				119	if (err \|\| msecs > UINT_MAX)
				120	return -EINVAL;
				121
				122	khugepaged_scan_sleep_millisecs = msecs;
				123	khugepaged_sleep_expire = 0;
				124	wake_up_interruptible(&khugepaged_wait);
				125
				126	return count;
				127	}
				128	static struct kobj_attribute scan_sleep_millisecs_attr =
				129	__ATTR(scan_sleep_millisecs, 0644, scan_sleep_millisecs_show,
				130	scan_sleep_millisecs_store);
				131
				132	static ssize_t alloc_sleep_millisecs_show(struct kobject *kobj,
				133	struct kobj_attribute *attr,
				134	char *buf)
				135	{
				136	return sprintf(buf, "%u\n", khugepaged_alloc_sleep_millisecs);
				137	}
				138
				139	static ssize_t alloc_sleep_millisecs_store(struct kobject *kobj,
				140	struct kobj_attribute *attr,
				141	const char *buf, size_t count)
				142	{
				143	unsigned long msecs;
				144	int err;
				145
				146	err = kstrtoul(buf, 10, &msecs);
				147	if (err \|\| msecs > UINT_MAX)
				148	return -EINVAL;
				149
				150	khugepaged_alloc_sleep_millisecs = msecs;
				151	khugepaged_sleep_expire = 0;
				152	wake_up_interruptible(&khugepaged_wait);
				153
				154	return count;
				155	}
				156	static struct kobj_attribute alloc_sleep_millisecs_attr =
				157	__ATTR(alloc_sleep_millisecs, 0644, alloc_sleep_millisecs_show,
				158	alloc_sleep_millisecs_store);
				159
				160	static ssize_t pages_to_scan_show(struct kobject *kobj,
				161	struct kobj_attribute *attr,
				162	char *buf)
				163	{
				164	return sprintf(buf, "%u\n", khugepaged_pages_to_scan);
				165	}
				166	static ssize_t pages_to_scan_store(struct kobject *kobj,
				167	struct kobj_attribute *attr,
				168	const char *buf, size_t count)
				169	{
				170	int err;
				171	unsigned long pages;
				172
				173	err = kstrtoul(buf, 10, &pages);
				174	if (err \|\| !pages \|\| pages > UINT_MAX)
				175	return -EINVAL;
				176
				177	khugepaged_pages_to_scan = pages;
				178
				179	return count;
				180	}
				181	static struct kobj_attribute pages_to_scan_attr =
				182	__ATTR(pages_to_scan, 0644, pages_to_scan_show,
				183	pages_to_scan_store);
				184
				185	static ssize_t pages_collapsed_show(struct kobject *kobj,
				186	struct kobj_attribute *attr,
				187	char *buf)
				188	{
				189	return sprintf(buf, "%u\n", khugepaged_pages_collapsed);
				190	}
				191	static struct kobj_attribute pages_collapsed_attr =
				192	__ATTR_RO(pages_collapsed);
				193
				194	static ssize_t full_scans_show(struct kobject *kobj,
				195	struct kobj_attribute *attr,
				196	char *buf)
				197	{
				198	return sprintf(buf, "%u\n", khugepaged_full_scans);
				199	}
				200	static struct kobj_attribute full_scans_attr =
				201	__ATTR_RO(full_scans);
				202
				203	static ssize_t khugepaged_defrag_show(struct kobject *kobj,
				204	struct kobj_attribute attr, char buf)
				205	{
				206	return single_hugepage_flag_show(kobj, attr, buf,
				207	TRANSPARENT_HUGEPAGE_DEFRAG_KHUGEPAGED_FLAG);
				208	}
				209	static ssize_t khugepaged_defrag_store(struct kobject *kobj,
				210	struct kobj_attribute *attr,
				211	const char *buf, size_t count)
				212	{
				213	return single_hugepage_flag_store(kobj, attr, buf, count,
				214	TRANSPARENT_HUGEPAGE_DEFRAG_KHUGEPAGED_FLAG);
				215	}
				216	static struct kobj_attribute khugepaged_defrag_attr =
				217	__ATTR(defrag, 0644, khugepaged_defrag_show,
				218	khugepaged_defrag_store);
				219
				220	/*
				221	* max_ptes_none controls if khugepaged should collapse hugepages over
				222	* any unmapped ptes in turn potentially increasing the memory
				223	* footprint of the vmas. When max_ptes_none is 0 khugepaged will not
				224	* reduce the available free memory in the system as it
				225	* runs. Increasing max_ptes_none will instead potentially reduce the
				226	* free memory in the system during the khugepaged scan.
				227	*/
				228	static ssize_t khugepaged_max_ptes_none_show(struct kobject *kobj,
				229	struct kobj_attribute *attr,
				230	char *buf)
				231	{
				232	return sprintf(buf, "%u\n", khugepaged_max_ptes_none);
				233	}
				234	static ssize_t khugepaged_max_ptes_none_store(struct kobject *kobj,
				235	struct kobj_attribute *attr,
				236	const char *buf, size_t count)
				237	{
				238	int err;
				239	unsigned long max_ptes_none;
				240
				241	err = kstrtoul(buf, 10, &max_ptes_none);
				242	if (err \|\| max_ptes_none > HPAGE_PMD_NR-1)
				243	return -EINVAL;
				244
				245	khugepaged_max_ptes_none = max_ptes_none;
				246
				247	return count;
				248	}
				249	static struct kobj_attribute khugepaged_max_ptes_none_attr =
				250	__ATTR(max_ptes_none, 0644, khugepaged_max_ptes_none_show,
				251	khugepaged_max_ptes_none_store);
				252
				253	static ssize_t khugepaged_max_ptes_swap_show(struct kobject *kobj,
				254	struct kobj_attribute *attr,
				255	char *buf)
				256	{
				257	return sprintf(buf, "%u\n", khugepaged_max_ptes_swap);
				258	}
				259
				260	static ssize_t khugepaged_max_ptes_swap_store(struct kobject *kobj,
				261	struct kobj_attribute *attr,
				262	const char *buf, size_t count)
				263	{
				264	int err;
				265	unsigned long max_ptes_swap;
				266
				267	err = kstrtoul(buf, 10, &max_ptes_swap);
				268	if (err \|\| max_ptes_swap > HPAGE_PMD_NR-1)
				269	return -EINVAL;
				270
				271	khugepaged_max_ptes_swap = max_ptes_swap;
				272
				273	return count;
				274	}
				275
				276	static struct kobj_attribute khugepaged_max_ptes_swap_attr =
				277	__ATTR(max_ptes_swap, 0644, khugepaged_max_ptes_swap_show,
				278	khugepaged_max_ptes_swap_store);
				279
				280	static struct attribute *khugepaged_attr[] = {
				281	&khugepaged_defrag_attr.attr,
				282	&khugepaged_max_ptes_none_attr.attr,
				283	&pages_to_scan_attr.attr,
				284	&pages_collapsed_attr.attr,
				285	&full_scans_attr.attr,
				286	&scan_sleep_millisecs_attr.attr,
				287	&alloc_sleep_millisecs_attr.attr,
				288	&khugepaged_max_ptes_swap_attr.attr,
				289	NULL,
				290	};
				291
				292	struct attribute_group khugepaged_attr_group = {
				293	.attrs = khugepaged_attr,
				294	.name = "khugepaged",
				295	};
				296
				297	#define VM_NO_KHUGEPAGED (VM_SPECIAL \| VM_HUGETLB \| VM_SHARED \| VM_MAYSHARE)
				298
				299	int hugepage_madvise(struct vm_area_struct *vma,
				300	unsigned long *vm_flags, int advice)
				301	{
				302	switch (advice) {
				303	case MADV_HUGEPAGE:
				304	#ifdef CONFIG_S390
				305	/*
				306	* qemu blindly sets MADV_HUGEPAGE on all allocations, but s390
				307	* can't handle this properly after s390_enable_sie, so we simply
				308	* ignore the madvise to prevent qemu from causing a SIGSEGV.
				309	*/
				310	if (mm_has_pgste(vma->vm_mm))
				311	return 0;
				312	#endif
				313	*vm_flags &= ~VM_NOHUGEPAGE;
				314	*vm_flags \|= VM_HUGEPAGE;
				315	/*
				316	* If the vma become good for khugepaged to scan,
				317	* register it here without waiting a page fault that
				318	* may not happen any time soon.
				319	*/
				320	if (!(*vm_flags & VM_NO_KHUGEPAGED) &&
				321	khugepaged_enter_vma_merge(vma, *vm_flags))
				322	return -ENOMEM;
				323	break;
				324	case MADV_NOHUGEPAGE:
				325	*vm_flags &= ~VM_HUGEPAGE;
				326	*vm_flags \|= VM_NOHUGEPAGE;
				327	/*
				328	* Setting VM_NOHUGEPAGE will prevent khugepaged from scanning
				329	* this vma even if we leave the mm registered in khugepaged if
				330	* it got registered before VM_NOHUGEPAGE was set.
				331	*/
				332	break;
				333	}
				334
				335	return 0;
				336	}
				337
				338	int __init khugepaged_init(void)
				339	{
				340	mm_slot_cache = kmem_cache_create("khugepaged_mm_slot",
				341	sizeof(struct mm_slot),
				342	__alignof__(struct mm_slot), 0, NULL);
				343	if (!mm_slot_cache)
				344	return -ENOMEM;
				345
				346	khugepaged_pages_to_scan = HPAGE_PMD_NR * 8;
				347	khugepaged_max_ptes_none = HPAGE_PMD_NR - 1;
				348	khugepaged_max_ptes_swap = HPAGE_PMD_NR / 8;
				349
				350	return 0;
				351	}
				352
				353	void __init khugepaged_destroy(void)
				354	{
				355	kmem_cache_destroy(mm_slot_cache);
				356	}
				357
				358	static inline struct mm_slot *alloc_mm_slot(void)
				359	{
				360	if (!mm_slot_cache) /* initialization failed */
				361	return NULL;
				362	return kmem_cache_zalloc(mm_slot_cache, GFP_KERNEL);
				363	}
				364
				365	static inline void free_mm_slot(struct mm_slot *mm_slot)
				366	{
				367	kmem_cache_free(mm_slot_cache, mm_slot);
				368	}
				369
				370	static struct mm_slot get_mm_slot(struct mm_struct mm)
				371	{
				372	struct mm_slot *mm_slot;
				373
				374	hash_for_each_possible(mm_slots_hash, mm_slot, hash, (unsigned long)mm)
				375	if (mm == mm_slot->mm)
				376	return mm_slot;
				377
				378	return NULL;
				379	}
				380
				381	static void insert_to_mm_slots_hash(struct mm_struct *mm,
				382	struct mm_slot *mm_slot)
				383	{
				384	mm_slot->mm = mm;
				385	hash_add(mm_slots_hash, &mm_slot->hash, (long)mm);
				386	}
				387
				388	static inline int khugepaged_test_exit(struct mm_struct *mm)
				389	{
				390	return atomic_read(&mm->mm_users) == 0;
				391	}
				392
				393	int __khugepaged_enter(struct mm_struct *mm)
				394	{
				395	struct mm_slot *mm_slot;
				396	int wakeup;
				397
				398	mm_slot = alloc_mm_slot();
				399	if (!mm_slot)
				400	return -ENOMEM;
				401
				402	/* __khugepaged_exit() must not run from under us */
				403	VM_BUG_ON_MM(khugepaged_test_exit(mm), mm);
				404	if (unlikely(test_and_set_bit(MMF_VM_HUGEPAGE, &mm->flags))) {
				405	free_mm_slot(mm_slot);
				406	return 0;
				407	}
				408
				409	spin_lock(&khugepaged_mm_lock);
				410	insert_to_mm_slots_hash(mm, mm_slot);
				411	/*
				412	* Insert just behind the scanning cursor, to let the area settle
				413	* down a little.
				414	*/
				415	wakeup = list_empty(&khugepaged_scan.mm_head);
				416	list_add_tail(&mm_slot->mm_node, &khugepaged_scan.mm_head);
				417	spin_unlock(&khugepaged_mm_lock);
				418
				419	atomic_inc(&mm->mm_count);
				420	if (wakeup)
				421	wake_up_interruptible(&khugepaged_wait);
				422
				423	return 0;
				424	}
				425
				426	int khugepaged_enter_vma_merge(struct vm_area_struct *vma,
				427	unsigned long vm_flags)
				428	{
				429	unsigned long hstart, hend;
				430	if (!vma->anon_vma)
				431	/*
				432	* Not yet faulted in so we will register later in the
				433	* page fault if needed.
				434	*/
				435	return 0;
				436	if (vma->vm_ops \|\| (vm_flags & VM_NO_KHUGEPAGED))
				437	/* khugepaged not yet working on file or special mappings */
				438	return 0;
				439	hstart = (vma->vm_start + ~HPAGE_PMD_MASK) & HPAGE_PMD_MASK;
				440	hend = vma->vm_end & HPAGE_PMD_MASK;
				441	if (hstart < hend)
				442	return khugepaged_enter(vma, vm_flags);
				443	return 0;
				444	}
				445
				446	void __khugepaged_exit(struct mm_struct *mm)
				447	{
				448	struct mm_slot *mm_slot;
				449	int free = 0;
				450
				451	spin_lock(&khugepaged_mm_lock);
				452	mm_slot = get_mm_slot(mm);
				453	if (mm_slot && khugepaged_scan.mm_slot != mm_slot) {
				454	hash_del(&mm_slot->hash);
				455	list_del(&mm_slot->mm_node);
				456	free = 1;
				457	}
				458	spin_unlock(&khugepaged_mm_lock);
				459
				460	if (free) {
				461	clear_bit(MMF_VM_HUGEPAGE, &mm->flags);
				462	free_mm_slot(mm_slot);
				463	mmdrop(mm);
				464	} else if (mm_slot) {
				465	/*
				466	* This is required to serialize against
				467	* khugepaged_test_exit() (which is guaranteed to run
				468	* under mmap sem read mode). Stop here (after we
				469	* return all pagetables will be destroyed) until
				470	* khugepaged has finished working on the pagetables
				471	* under the mmap_sem.
				472	*/
				473	down_write(&mm->mmap_sem);
				474	up_write(&mm->mmap_sem);
				475	}
				476	}
				477
				478	static void release_pte_page(struct page *page)
				479	{
				480	/* 0 stands for page_is_file_cache(page) == false */
				481	dec_zone_page_state(page, NR_ISOLATED_ANON + 0);
				482	unlock_page(page);
				483	putback_lru_page(page);
				484	}
				485
				486	static void release_pte_pages(pte_t pte, pte_t _pte)
				487	{
				488	while (--_pte >= pte) {
				489	pte_t pteval = *_pte;
				490	if (!pte_none(pteval) && !is_zero_pfn(pte_pfn(pteval)))
				491	release_pte_page(pte_page(pteval));
				492	}
				493	}
				494
				495	static int __collapse_huge_page_isolate(struct vm_area_struct *vma,
				496	unsigned long address,
				497	pte_t *pte)
				498	{
				499	struct page *page = NULL;
				500	pte_t *_pte;
				501	int none_or_zero = 0, result = 0;
				502	bool referenced = false, writable = false;
				503
				504	for (_pte = pte; _pte < pte+HPAGE_PMD_NR;
				505	_pte++, address += PAGE_SIZE) {
				506	pte_t pteval = *_pte;
				507	if (pte_none(pteval) \|\| (pte_present(pteval) &&
				508	is_zero_pfn(pte_pfn(pteval)))) {
				509	if (!userfaultfd_armed(vma) &&
				510	++none_or_zero <= khugepaged_max_ptes_none) {
				511	continue;
				512	} else {
				513	result = SCAN_EXCEED_NONE_PTE;
				514	goto out;
				515	}
				516	}
				517	if (!pte_present(pteval)) {
				518	result = SCAN_PTE_NON_PRESENT;
				519	goto out;
				520	}
				521	page = vm_normal_page(vma, address, pteval);
				522	if (unlikely(!page)) {
				523	result = SCAN_PAGE_NULL;
				524	goto out;
				525	}
				526
				527	VM_BUG_ON_PAGE(PageCompound(page), page);
				528	VM_BUG_ON_PAGE(!PageAnon(page), page);
				529	VM_BUG_ON_PAGE(!PageSwapBacked(page), page);
				530
				531	/*
				532	* We can do it before isolate_lru_page because the
				533	* page can't be freed from under us. NOTE: PG_lock
				534	* is needed to serialize against split_huge_page
				535	* when invoked from the VM.
				536	*/
				537	if (!trylock_page(page)) {
				538	result = SCAN_PAGE_LOCK;
				539	goto out;
				540	}
				541
				542	/*
				543	* cannot use mapcount: can't collapse if there's a gup pin.
				544	* The page must only be referenced by the scanned process
				545	* and page swap cache.
				546	*/
				547	if (page_count(page) != 1 + !!PageSwapCache(page)) {
				548	unlock_page(page);
				549	result = SCAN_PAGE_COUNT;
				550	goto out;
				551	}
				552	if (pte_write(pteval)) {
				553	writable = true;
				554	} else {
				555	if (PageSwapCache(page) &&
				556	!reuse_swap_page(page, NULL)) {
				557	unlock_page(page);
				558	result = SCAN_SWAP_CACHE_PAGE;
				559	goto out;
				560	}
				561	/*
				562	* Page is not in the swap cache. It can be collapsed
				563	* into a THP.
				564	*/
				565	}
				566
				567	/*
				568	* Isolate the page to avoid collapsing an hugepage
				569	* currently in use by the VM.
				570	*/
				571	if (isolate_lru_page(page)) {
				572	unlock_page(page);
				573	result = SCAN_DEL_PAGE_LRU;
				574	goto out;
				575	}
				576	/* 0 stands for page_is_file_cache(page) == false */
				577	inc_zone_page_state(page, NR_ISOLATED_ANON + 0);
				578	VM_BUG_ON_PAGE(!PageLocked(page), page);
				579	VM_BUG_ON_PAGE(PageLRU(page), page);
				580
				581	/* If there is no mapped pte young don't collapse the page */
				582	if (pte_young(pteval) \|\|
				583	page_is_young(page) \|\| PageReferenced(page) \|\|
				584	mmu_notifier_test_young(vma->vm_mm, address))
				585	referenced = true;
				586	}
				587	if (likely(writable)) {
				588	if (likely(referenced)) {
				589	result = SCAN_SUCCEED;
				590	trace_mm_collapse_huge_page_isolate(page, none_or_zero,
				591	referenced, writable, result);
				592	return 1;
				593	}
				594	} else {
				595	result = SCAN_PAGE_RO;
				596	}
				597
				598	out:
				599	release_pte_pages(pte, _pte);
				600	trace_mm_collapse_huge_page_isolate(page, none_or_zero,
				601	referenced, writable, result);
				602	return 0;
				603	}
				604
				605	static void __collapse_huge_page_copy(pte_t pte, struct page page,
				606	struct vm_area_struct *vma,
				607	unsigned long address,
				608	spinlock_t *ptl)
				609	{
				610	pte_t *_pte;
				611	for (_pte = pte; _pte < pte+HPAGE_PMD_NR; _pte++) {
				612	pte_t pteval = *_pte;
				613	struct page *src_page;
				614
				615	if (pte_none(pteval) \|\| is_zero_pfn(pte_pfn(pteval))) {
				616	clear_user_highpage(page, address);
				617	add_mm_counter(vma->vm_mm, MM_ANONPAGES, 1);
				618	if (is_zero_pfn(pte_pfn(pteval))) {
				619	/*
				620	* ptl mostly unnecessary.
				621	*/
				622	spin_lock(ptl);
				623	/*
				624	* paravirt calls inside pte_clear here are
				625	* superfluous.
				626	*/
				627	pte_clear(vma->vm_mm, address, _pte);
				628	spin_unlock(ptl);
				629	}
				630	} else {
				631	src_page = pte_page(pteval);
				632	copy_user_highpage(page, src_page, address, vma);
				633	VM_BUG_ON_PAGE(page_mapcount(src_page) != 1, src_page);
				634	release_pte_page(src_page);
				635	/*
				636	* ptl mostly unnecessary, but preempt has to
				637	* be disabled to update the per-cpu stats
				638	* inside page_remove_rmap().
				639	*/
				640	spin_lock(ptl);
				641	/*
				642	* paravirt calls inside pte_clear here are
				643	* superfluous.
				644	*/
				645	pte_clear(vma->vm_mm, address, _pte);
				646	page_remove_rmap(src_page, false);
				647	spin_unlock(ptl);
				648	free_page_and_swap_cache(src_page);
				649	}
				650
				651	address += PAGE_SIZE;
				652	page++;
				653	}
				654	}
				655
				656	static void khugepaged_alloc_sleep(void)
				657	{
				658	DEFINE_WAIT(wait);
				659
				660	add_wait_queue(&khugepaged_wait, &wait);
				661	freezable_schedule_timeout_interruptible(
				662	msecs_to_jiffies(khugepaged_alloc_sleep_millisecs));
				663	remove_wait_queue(&khugepaged_wait, &wait);
				664	}
				665
				666	static int khugepaged_node_load[MAX_NUMNODES];
				667
				668	static bool khugepaged_scan_abort(int nid)
				669	{
				670	int i;
				671
				672	/*
				673	* If zone_reclaim_mode is disabled, then no extra effort is made to
				674	* allocate memory locally.
				675	*/
				676	if (!zone_reclaim_mode)
				677	return false;
				678
				679	/* If there is a count for this node already, it must be acceptable */
				680	if (khugepaged_node_load[nid])
				681	return false;
				682
				683	for (i = 0; i < MAX_NUMNODES; i++) {
				684	if (!khugepaged_node_load[i])
				685	continue;
				686	if (node_distance(nid, i) > RECLAIM_DISTANCE)
				687	return true;
				688	}
				689	return false;
				690	}
				691
				692	/* Defrag for khugepaged will enter direct reclaim/compaction if necessary */
				693	static inline gfp_t alloc_hugepage_khugepaged_gfpmask(void)
				694	{
				695	return GFP_TRANSHUGE \| (khugepaged_defrag() ? __GFP_DIRECT_RECLAIM : 0);
				696	}
				697
				698	#ifdef CONFIG_NUMA
				699	static int khugepaged_find_target_node(void)
				700	{
				701	static int last_khugepaged_target_node = NUMA_NO_NODE;
				702	int nid, target_node = 0, max_value = 0;
				703
				704	/* find first node with max normal pages hit */
				705	for (nid = 0; nid < MAX_NUMNODES; nid++)
				706	if (khugepaged_node_load[nid] > max_value) {
				707	max_value = khugepaged_node_load[nid];
				708	target_node = nid;
				709	}
				710
				711	/* do some balance if several nodes have the same hit record */
				712	if (target_node <= last_khugepaged_target_node)
				713	for (nid = last_khugepaged_target_node + 1; nid < MAX_NUMNODES;
				714	nid++)
				715	if (max_value == khugepaged_node_load[nid]) {
				716	target_node = nid;
				717	break;
				718	}
				719
				720	last_khugepaged_target_node = target_node;
				721	return target_node;
				722	}
				723
				724	static bool khugepaged_prealloc_page(struct page *hpage, bool wait)
				725	{
				726	if (IS_ERR(*hpage)) {
				727	if (!*wait)
				728	return false;
				729
				730	*wait = false;
				731	*hpage = NULL;
				732	khugepaged_alloc_sleep();
				733	} else if (*hpage) {
				734	put_page(*hpage);
				735	*hpage = NULL;
				736	}
				737
				738	return true;
				739	}
				740
				741	static struct page *
Kirill A. Shutemov	988ddb7	2016-07-26 15:26:26 -0700	[diff] [blame^]	742	khugepaged_alloc_page(struct page **hpage, gfp_t gfp, int node)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	743	{
				744	VM_BUG_ON_PAGE(hpage, hpage);
				745
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	746	*hpage = __alloc_pages_node(node, gfp, HPAGE_PMD_ORDER);
				747	if (unlikely(!*hpage)) {
				748	count_vm_event(THP_COLLAPSE_ALLOC_FAILED);
				749	*hpage = ERR_PTR(-ENOMEM);
				750	return NULL;
				751	}
				752
				753	prep_transhuge_page(*hpage);
				754	count_vm_event(THP_COLLAPSE_ALLOC);
				755	return *hpage;
				756	}
				757	#else
				758	static int khugepaged_find_target_node(void)
				759	{
				760	return 0;
				761	}
				762
				763	static inline struct page *alloc_khugepaged_hugepage(void)
				764	{
				765	struct page *page;
				766
				767	page = alloc_pages(alloc_hugepage_khugepaged_gfpmask(),
				768	HPAGE_PMD_ORDER);
				769	if (page)
				770	prep_transhuge_page(page);
				771	return page;
				772	}
				773
				774	static struct page khugepaged_alloc_hugepage(bool wait)
				775	{
				776	struct page *hpage;
				777
				778	do {
				779	hpage = alloc_khugepaged_hugepage();
				780	if (!hpage) {
				781	count_vm_event(THP_COLLAPSE_ALLOC_FAILED);
				782	if (!*wait)
				783	return NULL;
				784
				785	*wait = false;
				786	khugepaged_alloc_sleep();
				787	} else
				788	count_vm_event(THP_COLLAPSE_ALLOC);
				789	} while (unlikely(!hpage) && likely(khugepaged_enabled()));
				790
				791	return hpage;
				792	}
				793
				794	static bool khugepaged_prealloc_page(struct page *hpage, bool wait)
				795	{
				796	if (!*hpage)
				797	*hpage = khugepaged_alloc_hugepage(wait);
				798
				799	if (unlikely(!*hpage))
				800	return false;
				801
				802	return true;
				803	}
				804
				805	static struct page *
Kirill A. Shutemov	988ddb7	2016-07-26 15:26:26 -0700	[diff] [blame^]	806	khugepaged_alloc_page(struct page **hpage, gfp_t gfp, int node)
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	807	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	808	VM_BUG_ON(!*hpage);
				809
				810	return *hpage;
				811	}
				812	#endif
				813
				814	static bool hugepage_vma_check(struct vm_area_struct *vma)
				815	{
				816	if ((!(vma->vm_flags & VM_HUGEPAGE) && !khugepaged_always()) \|\|
				817	(vma->vm_flags & VM_NOHUGEPAGE))
				818	return false;
				819	if (!vma->anon_vma \|\| vma->vm_ops)
				820	return false;
				821	if (is_vma_temporary_stack(vma))
				822	return false;
				823	return !(vma->vm_flags & VM_NO_KHUGEPAGED);
				824	}
				825
				826	/*
				827	* If mmap_sem temporarily dropped, revalidate vma
				828	* before taking mmap_sem.
				829	* Return 0 if succeeds, otherwise return none-zero
				830	* value (scan code).
				831	*/
				832
				833	static int hugepage_vma_revalidate(struct mm_struct *mm, unsigned long address)
				834	{
				835	struct vm_area_struct *vma;
				836	unsigned long hstart, hend;
				837
				838	if (unlikely(khugepaged_test_exit(mm)))
				839	return SCAN_ANY_PROCESS;
				840
				841	vma = find_vma(mm, address);
				842	if (!vma)
				843	return SCAN_VMA_NULL;
				844
				845	hstart = (vma->vm_start + ~HPAGE_PMD_MASK) & HPAGE_PMD_MASK;
				846	hend = vma->vm_end & HPAGE_PMD_MASK;
				847	if (address < hstart \|\| address + HPAGE_PMD_SIZE > hend)
				848	return SCAN_ADDRESS_RANGE;
				849	if (!hugepage_vma_check(vma))
				850	return SCAN_VMA_CHECK;
				851	return 0;
				852	}
				853
				854	/*
				855	* Bring missing pages in from swap, to complete THP collapse.
				856	* Only done if khugepaged_scan_pmd believes it is worthwhile.
				857	*
				858	* Called and returns without pte mapped or spinlocks held,
				859	* but with mmap_sem held to protect against vma changes.
				860	*/
				861
				862	static bool __collapse_huge_page_swapin(struct mm_struct *mm,
				863	struct vm_area_struct *vma,
				864	unsigned long address, pmd_t *pmd)
				865	{
				866	pte_t pteval;
				867	int swapped_in = 0, ret = 0;
				868	struct fault_env fe = {
				869	.vma = vma,
				870	.address = address,
				871	.flags = FAULT_FLAG_ALLOW_RETRY,
				872	.pmd = pmd,
				873	};
				874
				875	fe.pte = pte_offset_map(pmd, address);
				876	for (; fe.address < address + HPAGE_PMD_NR*PAGE_SIZE;
				877	fe.pte++, fe.address += PAGE_SIZE) {
				878	pteval = *fe.pte;
				879	if (!is_swap_pte(pteval))
				880	continue;
				881	swapped_in++;
				882	ret = do_swap_page(&fe, pteval);
				883	/* do_swap_page returns VM_FAULT_RETRY with released mmap_sem */
				884	if (ret & VM_FAULT_RETRY) {
				885	down_read(&mm->mmap_sem);
				886	/* vma is no longer available, don't continue to swapin */
				887	if (hugepage_vma_revalidate(mm, address))
				888	return false;
				889	/* check if the pmd is still valid */
				890	if (mm_find_pmd(mm, address) != pmd)
				891	return false;
				892	}
				893	if (ret & VM_FAULT_ERROR) {
				894	trace_mm_collapse_huge_page_swapin(mm, swapped_in, 0);
				895	return false;
				896	}
				897	/* pte is unmapped now, we need to map it */
				898	fe.pte = pte_offset_map(pmd, fe.address);
				899	}
				900	fe.pte--;
				901	pte_unmap(fe.pte);
				902	trace_mm_collapse_huge_page_swapin(mm, swapped_in, 1);
				903	return true;
				904	}
				905
				906	static void collapse_huge_page(struct mm_struct *mm,
				907	unsigned long address,
				908	struct page **hpage,
				909	struct vm_area_struct *vma,
				910	int node)
				911	{
				912	pmd_t *pmd, _pmd;
				913	pte_t *pte;
				914	pgtable_t pgtable;
				915	struct page *new_page;
				916	spinlock_t pmd_ptl, pte_ptl;
				917	int isolated = 0, result = 0;
				918	struct mem_cgroup *memcg;
				919	unsigned long mmun_start; /* For mmu_notifiers */
				920	unsigned long mmun_end; /* For mmu_notifiers */
				921	gfp_t gfp;
				922
				923	VM_BUG_ON(address & ~HPAGE_PMD_MASK);
				924
				925	/* Only allocate from the target node */
				926	gfp = alloc_hugepage_khugepaged_gfpmask() \| __GFP_OTHER_NODE \| __GFP_THISNODE;
				927
Kirill A. Shutemov	988ddb7	2016-07-26 15:26:26 -0700	[diff] [blame^]	928	/*
				929	* Before allocating the hugepage, release the mmap_sem read lock.
				930	* The allocation can take potentially a long time if it involves
				931	* sync compaction, and we do not need to hold the mmap_sem during
				932	* that. We will recheck the vma after taking it again in write mode.
				933	*/
				934	up_read(&mm->mmap_sem);
				935	new_page = khugepaged_alloc_page(hpage, gfp, node);
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	936	if (!new_page) {
				937	result = SCAN_ALLOC_HUGE_PAGE_FAIL;
				938	goto out_nolock;
				939	}
				940
				941	if (unlikely(mem_cgroup_try_charge(new_page, mm, gfp, &memcg, true))) {
				942	result = SCAN_CGROUP_CHARGE_FAIL;
				943	goto out_nolock;
				944	}
				945
				946	down_read(&mm->mmap_sem);
				947	result = hugepage_vma_revalidate(mm, address);
				948	if (result) {
				949	mem_cgroup_cancel_charge(new_page, memcg, true);
				950	up_read(&mm->mmap_sem);
				951	goto out_nolock;
				952	}
				953
				954	pmd = mm_find_pmd(mm, address);
				955	if (!pmd) {
				956	result = SCAN_PMD_NULL;
				957	mem_cgroup_cancel_charge(new_page, memcg, true);
				958	up_read(&mm->mmap_sem);
				959	goto out_nolock;
				960	}
				961
				962	/*
				963	* __collapse_huge_page_swapin always returns with mmap_sem locked.
				964	* If it fails, release mmap_sem and jump directly out.
				965	* Continuing to collapse causes inconsistency.
				966	*/
				967	if (!__collapse_huge_page_swapin(mm, vma, address, pmd)) {
				968	mem_cgroup_cancel_charge(new_page, memcg, true);
				969	up_read(&mm->mmap_sem);
				970	goto out_nolock;
				971	}
				972
				973	up_read(&mm->mmap_sem);
				974	/*
				975	* Prevent all access to pagetables with the exception of
				976	* gup_fast later handled by the ptep_clear_flush and the VM
				977	* handled by the anon_vma lock + PG_lock.
				978	*/
				979	down_write(&mm->mmap_sem);
				980	result = hugepage_vma_revalidate(mm, address);
				981	if (result)
				982	goto out;
				983	/* check if the pmd is still valid */
				984	if (mm_find_pmd(mm, address) != pmd)
				985	goto out;
				986
				987	anon_vma_lock_write(vma->anon_vma);
				988
				989	pte = pte_offset_map(pmd, address);
				990	pte_ptl = pte_lockptr(mm, pmd);
				991
				992	mmun_start = address;
				993	mmun_end = address + HPAGE_PMD_SIZE;
				994	mmu_notifier_invalidate_range_start(mm, mmun_start, mmun_end);
				995	pmd_ptl = pmd_lock(mm, pmd); /* probably unnecessary */
				996	/*
				997	* After this gup_fast can't run anymore. This also removes
				998	* any huge TLB entry from the CPU so we won't allow
				999	* huge and small TLB entries for the same virtual address
				1000	* to avoid the risk of CPU bugs in that area.
				1001	*/
				1002	_pmd = pmdp_collapse_flush(vma, address, pmd);
				1003	spin_unlock(pmd_ptl);
				1004	mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
				1005
				1006	spin_lock(pte_ptl);
				1007	isolated = __collapse_huge_page_isolate(vma, address, pte);
				1008	spin_unlock(pte_ptl);
				1009
				1010	if (unlikely(!isolated)) {
				1011	pte_unmap(pte);
				1012	spin_lock(pmd_ptl);
				1013	BUG_ON(!pmd_none(*pmd));
				1014	/*
				1015	* We can only use set_pmd_at when establishing
				1016	* hugepmds and never for establishing regular pmds that
				1017	* points to regular pagetables. Use pmd_populate for that
				1018	*/
				1019	pmd_populate(mm, pmd, pmd_pgtable(_pmd));
				1020	spin_unlock(pmd_ptl);
				1021	anon_vma_unlock_write(vma->anon_vma);
				1022	result = SCAN_FAIL;
				1023	goto out;
				1024	}
				1025
				1026	/*
				1027	* All pages are isolated and locked so anon_vma rmap
				1028	* can't run anymore.
				1029	*/
				1030	anon_vma_unlock_write(vma->anon_vma);
				1031
				1032	__collapse_huge_page_copy(pte, new_page, vma, address, pte_ptl);
				1033	pte_unmap(pte);
				1034	__SetPageUptodate(new_page);
				1035	pgtable = pmd_pgtable(_pmd);
				1036
				1037	_pmd = mk_huge_pmd(new_page, vma->vm_page_prot);
				1038	_pmd = maybe_pmd_mkwrite(pmd_mkdirty(_pmd), vma);
				1039
				1040	/*
				1041	* spin_lock() below is not the equivalent of smp_wmb(), so
				1042	* this is needed to avoid the copy_huge_page writes to become
				1043	* visible after the set_pmd_at() write.
				1044	*/
				1045	smp_wmb();
				1046
				1047	spin_lock(pmd_ptl);
				1048	BUG_ON(!pmd_none(*pmd));
				1049	page_add_new_anon_rmap(new_page, vma, address, true);
				1050	mem_cgroup_commit_charge(new_page, memcg, false, true);
				1051	lru_cache_add_active_or_unevictable(new_page, vma);
				1052	pgtable_trans_huge_deposit(mm, pmd, pgtable);
				1053	set_pmd_at(mm, address, pmd, _pmd);
				1054	update_mmu_cache_pmd(vma, address, pmd);
				1055	spin_unlock(pmd_ptl);
				1056
				1057	*hpage = NULL;
				1058
				1059	khugepaged_pages_collapsed++;
				1060	result = SCAN_SUCCEED;
				1061	out_up_write:
				1062	up_write(&mm->mmap_sem);
				1063	out_nolock:
				1064	trace_mm_collapse_huge_page(mm, isolated, result);
				1065	return;
				1066	out:
				1067	mem_cgroup_cancel_charge(new_page, memcg, true);
				1068	goto out_up_write;
				1069	}
				1070
				1071	static int khugepaged_scan_pmd(struct mm_struct *mm,
				1072	struct vm_area_struct *vma,
				1073	unsigned long address,
				1074	struct page **hpage)
				1075	{
				1076	pmd_t *pmd;
				1077	pte_t pte, _pte;
				1078	int ret = 0, none_or_zero = 0, result = 0;
				1079	struct page *page = NULL;
				1080	unsigned long _address;
				1081	spinlock_t *ptl;
				1082	int node = NUMA_NO_NODE, unmapped = 0;
				1083	bool writable = false, referenced = false;
				1084
				1085	VM_BUG_ON(address & ~HPAGE_PMD_MASK);
				1086
				1087	pmd = mm_find_pmd(mm, address);
				1088	if (!pmd) {
				1089	result = SCAN_PMD_NULL;
				1090	goto out;
				1091	}
				1092
				1093	memset(khugepaged_node_load, 0, sizeof(khugepaged_node_load));
				1094	pte = pte_offset_map_lock(mm, pmd, address, &ptl);
				1095	for (_address = address, _pte = pte; _pte < pte+HPAGE_PMD_NR;
				1096	_pte++, _address += PAGE_SIZE) {
				1097	pte_t pteval = *_pte;
				1098	if (is_swap_pte(pteval)) {
				1099	if (++unmapped <= khugepaged_max_ptes_swap) {
				1100	continue;
				1101	} else {
				1102	result = SCAN_EXCEED_SWAP_PTE;
				1103	goto out_unmap;
				1104	}
				1105	}
				1106	if (pte_none(pteval) \|\| is_zero_pfn(pte_pfn(pteval))) {
				1107	if (!userfaultfd_armed(vma) &&
				1108	++none_or_zero <= khugepaged_max_ptes_none) {
				1109	continue;
				1110	} else {
				1111	result = SCAN_EXCEED_NONE_PTE;
				1112	goto out_unmap;
				1113	}
				1114	}
				1115	if (!pte_present(pteval)) {
				1116	result = SCAN_PTE_NON_PRESENT;
				1117	goto out_unmap;
				1118	}
				1119	if (pte_write(pteval))
				1120	writable = true;
				1121
				1122	page = vm_normal_page(vma, _address, pteval);
				1123	if (unlikely(!page)) {
				1124	result = SCAN_PAGE_NULL;
				1125	goto out_unmap;
				1126	}
				1127
				1128	/* TODO: teach khugepaged to collapse THP mapped with pte */
				1129	if (PageCompound(page)) {
				1130	result = SCAN_PAGE_COMPOUND;
				1131	goto out_unmap;
				1132	}
				1133
				1134	/*
				1135	* Record which node the original page is from and save this
				1136	* information to khugepaged_node_load[].
				1137	* Khupaged will allocate hugepage from the node has the max
				1138	* hit record.
				1139	*/
				1140	node = page_to_nid(page);
				1141	if (khugepaged_scan_abort(node)) {
				1142	result = SCAN_SCAN_ABORT;
				1143	goto out_unmap;
				1144	}
				1145	khugepaged_node_load[node]++;
				1146	if (!PageLRU(page)) {
				1147	result = SCAN_PAGE_LRU;
				1148	goto out_unmap;
				1149	}
				1150	if (PageLocked(page)) {
				1151	result = SCAN_PAGE_LOCK;
				1152	goto out_unmap;
				1153	}
				1154	if (!PageAnon(page)) {
				1155	result = SCAN_PAGE_ANON;
				1156	goto out_unmap;
				1157	}
				1158
				1159	/*
				1160	* cannot use mapcount: can't collapse if there's a gup pin.
				1161	* The page must only be referenced by the scanned process
				1162	* and page swap cache.
				1163	*/
				1164	if (page_count(page) != 1 + !!PageSwapCache(page)) {
				1165	result = SCAN_PAGE_COUNT;
				1166	goto out_unmap;
				1167	}
				1168	if (pte_young(pteval) \|\|
				1169	page_is_young(page) \|\| PageReferenced(page) \|\|
				1170	mmu_notifier_test_young(vma->vm_mm, address))
				1171	referenced = true;
				1172	}
				1173	if (writable) {
				1174	if (referenced) {
				1175	result = SCAN_SUCCEED;
				1176	ret = 1;
				1177	} else {
				1178	result = SCAN_NO_REFERENCED_PAGE;
				1179	}
				1180	} else {
				1181	result = SCAN_PAGE_RO;
				1182	}
				1183	out_unmap:
				1184	pte_unmap_unlock(pte, ptl);
				1185	if (ret) {
				1186	node = khugepaged_find_target_node();
				1187	/* collapse_huge_page will return with the mmap_sem released */
				1188	collapse_huge_page(mm, address, hpage, vma, node);
				1189	}
				1190	out:
				1191	trace_mm_khugepaged_scan_pmd(mm, page, writable, referenced,
				1192	none_or_zero, result, unmapped);
				1193	return ret;
				1194	}
				1195
				1196	static void collect_mm_slot(struct mm_slot *mm_slot)
				1197	{
				1198	struct mm_struct *mm = mm_slot->mm;
				1199
				1200	VM_BUG_ON(NR_CPUS != 1 && !spin_is_locked(&khugepaged_mm_lock));
				1201
				1202	if (khugepaged_test_exit(mm)) {
				1203	/* free mm_slot */
				1204	hash_del(&mm_slot->hash);
				1205	list_del(&mm_slot->mm_node);
				1206
				1207	/*
				1208	* Not strictly needed because the mm exited already.
				1209	*
				1210	* clear_bit(MMF_VM_HUGEPAGE, &mm->flags);
				1211	*/
				1212
				1213	/* khugepaged_mm_lock actually not necessary for the below */
				1214	free_mm_slot(mm_slot);
				1215	mmdrop(mm);
				1216	}
				1217	}
				1218
				1219	static unsigned int khugepaged_scan_mm_slot(unsigned int pages,
				1220	struct page **hpage)
				1221	__releases(&khugepaged_mm_lock)
				1222	__acquires(&khugepaged_mm_lock)
				1223	{
				1224	struct mm_slot *mm_slot;
				1225	struct mm_struct *mm;
				1226	struct vm_area_struct *vma;
				1227	int progress = 0;
				1228
				1229	VM_BUG_ON(!pages);
				1230	VM_BUG_ON(NR_CPUS != 1 && !spin_is_locked(&khugepaged_mm_lock));
				1231
				1232	if (khugepaged_scan.mm_slot)
				1233	mm_slot = khugepaged_scan.mm_slot;
				1234	else {
				1235	mm_slot = list_entry(khugepaged_scan.mm_head.next,
				1236	struct mm_slot, mm_node);
				1237	khugepaged_scan.address = 0;
				1238	khugepaged_scan.mm_slot = mm_slot;
				1239	}
				1240	spin_unlock(&khugepaged_mm_lock);
				1241
				1242	mm = mm_slot->mm;
				1243	down_read(&mm->mmap_sem);
				1244	if (unlikely(khugepaged_test_exit(mm)))
				1245	vma = NULL;
				1246	else
				1247	vma = find_vma(mm, khugepaged_scan.address);
				1248
				1249	progress++;
				1250	for (; vma; vma = vma->vm_next) {
				1251	unsigned long hstart, hend;
				1252
				1253	cond_resched();
				1254	if (unlikely(khugepaged_test_exit(mm))) {
				1255	progress++;
				1256	break;
				1257	}
				1258	if (!hugepage_vma_check(vma)) {
				1259	skip:
				1260	progress++;
				1261	continue;
				1262	}
				1263	hstart = (vma->vm_start + ~HPAGE_PMD_MASK) & HPAGE_PMD_MASK;
				1264	hend = vma->vm_end & HPAGE_PMD_MASK;
				1265	if (hstart >= hend)
				1266	goto skip;
				1267	if (khugepaged_scan.address > hend)
				1268	goto skip;
				1269	if (khugepaged_scan.address < hstart)
				1270	khugepaged_scan.address = hstart;
				1271	VM_BUG_ON(khugepaged_scan.address & ~HPAGE_PMD_MASK);
				1272
				1273	while (khugepaged_scan.address < hend) {
				1274	int ret;
				1275	cond_resched();
				1276	if (unlikely(khugepaged_test_exit(mm)))
				1277	goto breakouterloop;
				1278
				1279	VM_BUG_ON(khugepaged_scan.address < hstart \|\|
				1280	khugepaged_scan.address + HPAGE_PMD_SIZE >
				1281	hend);
				1282	ret = khugepaged_scan_pmd(mm, vma,
				1283	khugepaged_scan.address,
				1284	hpage);
				1285	/* move to next address */
				1286	khugepaged_scan.address += HPAGE_PMD_SIZE;
				1287	progress += HPAGE_PMD_NR;
				1288	if (ret)
				1289	/* we released mmap_sem so break loop */
				1290	goto breakouterloop_mmap_sem;
				1291	if (progress >= pages)
				1292	goto breakouterloop;
				1293	}
				1294	}
				1295	breakouterloop:
				1296	up_read(&mm->mmap_sem); /* exit_mmap will destroy ptes after this */
				1297	breakouterloop_mmap_sem:
				1298
				1299	spin_lock(&khugepaged_mm_lock);
				1300	VM_BUG_ON(khugepaged_scan.mm_slot != mm_slot);
				1301	/*
				1302	* Release the current mm_slot if this mm is about to die, or
				1303	* if we scanned all vmas of this mm.
				1304	*/
				1305	if (khugepaged_test_exit(mm) \|\| !vma) {
				1306	/*
				1307	* Make sure that if mm_users is reaching zero while
				1308	* khugepaged runs here, khugepaged_exit will find
				1309	* mm_slot not pointing to the exiting mm.
				1310	*/
				1311	if (mm_slot->mm_node.next != &khugepaged_scan.mm_head) {
				1312	khugepaged_scan.mm_slot = list_entry(
				1313	mm_slot->mm_node.next,
				1314	struct mm_slot, mm_node);
				1315	khugepaged_scan.address = 0;
				1316	} else {
				1317	khugepaged_scan.mm_slot = NULL;
				1318	khugepaged_full_scans++;
				1319	}
				1320
				1321	collect_mm_slot(mm_slot);
				1322	}
				1323
				1324	return progress;
				1325	}
				1326
				1327	static int khugepaged_has_work(void)
				1328	{
				1329	return !list_empty(&khugepaged_scan.mm_head) &&
				1330	khugepaged_enabled();
				1331	}
				1332
				1333	static int khugepaged_wait_event(void)
				1334	{
				1335	return !list_empty(&khugepaged_scan.mm_head) \|\|
				1336	kthread_should_stop();
				1337	}
				1338
				1339	static void khugepaged_do_scan(void)
				1340	{
				1341	struct page *hpage = NULL;
				1342	unsigned int progress = 0, pass_through_head = 0;
				1343	unsigned int pages = khugepaged_pages_to_scan;
				1344	bool wait = true;
				1345
				1346	barrier(); /* write khugepaged_pages_to_scan to local stack */
				1347
				1348	while (progress < pages) {
				1349	if (!khugepaged_prealloc_page(&hpage, &wait))
				1350	break;
				1351
				1352	cond_resched();
				1353
				1354	if (unlikely(kthread_should_stop() \|\| try_to_freeze()))
				1355	break;
				1356
				1357	spin_lock(&khugepaged_mm_lock);
				1358	if (!khugepaged_scan.mm_slot)
				1359	pass_through_head++;
				1360	if (khugepaged_has_work() &&
				1361	pass_through_head < 2)
				1362	progress += khugepaged_scan_mm_slot(pages - progress,
				1363	&hpage);
				1364	else
				1365	progress = pages;
				1366	spin_unlock(&khugepaged_mm_lock);
				1367	}
				1368
				1369	if (!IS_ERR_OR_NULL(hpage))
				1370	put_page(hpage);
				1371	}
				1372
				1373	static bool khugepaged_should_wakeup(void)
				1374	{
				1375	return kthread_should_stop() \|\|
				1376	time_after_eq(jiffies, khugepaged_sleep_expire);
				1377	}
				1378
				1379	static void khugepaged_wait_work(void)
				1380	{
				1381	if (khugepaged_has_work()) {
				1382	const unsigned long scan_sleep_jiffies =
				1383	msecs_to_jiffies(khugepaged_scan_sleep_millisecs);
				1384
				1385	if (!scan_sleep_jiffies)
				1386	return;
				1387
				1388	khugepaged_sleep_expire = jiffies + scan_sleep_jiffies;
				1389	wait_event_freezable_timeout(khugepaged_wait,
				1390	khugepaged_should_wakeup(),
				1391	scan_sleep_jiffies);
				1392	return;
				1393	}
				1394
				1395	if (khugepaged_enabled())
				1396	wait_event_freezable(khugepaged_wait, khugepaged_wait_event());
				1397	}
				1398
				1399	static int khugepaged(void *none)
				1400	{
				1401	struct mm_slot *mm_slot;
				1402
				1403	set_freezable();
				1404	set_user_nice(current, MAX_NICE);
				1405
				1406	while (!kthread_should_stop()) {
				1407	khugepaged_do_scan();
				1408	khugepaged_wait_work();
				1409	}
				1410
				1411	spin_lock(&khugepaged_mm_lock);
				1412	mm_slot = khugepaged_scan.mm_slot;
				1413	khugepaged_scan.mm_slot = NULL;
				1414	if (mm_slot)
				1415	collect_mm_slot(mm_slot);
				1416	spin_unlock(&khugepaged_mm_lock);
				1417	return 0;
				1418	}
				1419
				1420	static void set_recommended_min_free_kbytes(void)
				1421	{
				1422	struct zone *zone;
				1423	int nr_zones = 0;
				1424	unsigned long recommended_min;
				1425
				1426	for_each_populated_zone(zone)
				1427	nr_zones++;
				1428
				1429	/* Ensure 2 pageblocks are free to assist fragmentation avoidance */
				1430	recommended_min = pageblock_nr_pages * nr_zones * 2;
				1431
				1432	/*
				1433	* Make sure that on average at least two pageblocks are almost free
				1434	* of another type, one for a migratetype to fall back to and a
				1435	* second to avoid subsequent fallbacks of other types There are 3
				1436	* MIGRATE_TYPES we care about.
				1437	*/
				1438	recommended_min += pageblock_nr_pages * nr_zones *
				1439	MIGRATE_PCPTYPES * MIGRATE_PCPTYPES;
				1440
				1441	/* don't ever allow to reserve more than 5% of the lowmem */
				1442	recommended_min = min(recommended_min,
				1443	(unsigned long) nr_free_buffer_pages() / 20);
				1444	recommended_min <<= (PAGE_SHIFT-10);
				1445
				1446	if (recommended_min > min_free_kbytes) {
				1447	if (user_min_free_kbytes >= 0)
				1448	pr_info("raising min_free_kbytes from %d to %lu to help transparent hugepage allocations\n",
				1449	min_free_kbytes, recommended_min);
				1450
				1451	min_free_kbytes = recommended_min;
				1452	}
				1453	setup_per_zone_wmarks();
				1454	}
				1455
				1456	int start_stop_khugepaged(void)
				1457	{
				1458	static struct task_struct *khugepaged_thread __read_mostly;
				1459	static DEFINE_MUTEX(khugepaged_mutex);
				1460	int err = 0;
				1461
				1462	mutex_lock(&khugepaged_mutex);
				1463	if (khugepaged_enabled()) {
				1464	if (!khugepaged_thread)
				1465	khugepaged_thread = kthread_run(khugepaged, NULL,
				1466	"khugepaged");
				1467	if (IS_ERR(khugepaged_thread)) {
				1468	pr_err("khugepaged: kthread_run(khugepaged) failed\n");
				1469	err = PTR_ERR(khugepaged_thread);
				1470	khugepaged_thread = NULL;
				1471	goto fail;
				1472	}
				1473
				1474	if (!list_empty(&khugepaged_scan.mm_head))
				1475	wake_up_interruptible(&khugepaged_wait);
				1476
				1477	set_recommended_min_free_kbytes();
				1478	} else if (khugepaged_thread) {
				1479	kthread_stop(khugepaged_thread);
				1480	khugepaged_thread = NULL;
				1481	}
				1482	fail:
				1483	mutex_unlock(&khugepaged_mutex);
				1484	return err;
				1485	}