Blame - fs/btrfs/file.c - kernel/msm-4.9

blob: 658d66959abe9eca7608f650d73bd9952a053ac4 [file] [log] [blame]

Chris Mason	6cbd557	2007-06-12 09:07:21 -0400	[diff] [blame]	1	/*
				2	* Copyright (C) 2007 Oracle. All rights reserved.
				3	*
				4	* This program is free software; you can redistribute it and/or
				5	* modify it under the terms of the GNU General Public
				6	* License v2 as published by the Free Software Foundation.
				7	*
				8	* This program is distributed in the hope that it will be useful,
				9	* but WITHOUT ANY WARRANTY; without even the implied warranty of
				10	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
				11	* General Public License for more details.
				12	*
				13	* You should have received a copy of the GNU General Public
				14	* License along with this program; if not, write to the
				15	* Free Software Foundation, Inc., 59 Temple Place - Suite 330,
				16	* Boston, MA 021110-1307, USA.
				17	*/
				18
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	19	#include <linux/fs.h>
				20	#include <linux/pagemap.h>
				21	#include <linux/highmem.h>
				22	#include <linux/time.h>
				23	#include <linux/init.h>
				24	#include <linux/string.h>
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	25	#include <linux/backing-dev.h>
				26	#include <linux/mpage.h>
Christoph Hellwig	2fe17c1	2011-01-14 13:07:43 +0100	[diff] [blame]	27	#include <linux/falloc.h>
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	28	#include <linux/swap.h>
				29	#include <linux/writeback.h>
				30	#include <linux/statfs.h>
				31	#include <linux/compat.h>
Tejun Heo	5a0e3ad	2010-03-24 17:04:11 +0900	[diff] [blame]	32	#include <linux/slab.h>
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	33	#include "ctree.h"
				34	#include "disk-io.h"
				35	#include "transaction.h"
				36	#include "btrfs_inode.h"
				37	#include "ioctl.h"
				38	#include "print-tree.h"
Chris Mason	e02119d	2008-09-05 16:13:11 -0400	[diff] [blame]	39	#include "tree-log.h"
				40	#include "locking.h"
Jeff Mahoney	12fa8ec	2008-05-02 15:03:58 -0400	[diff] [blame]	41	#include "compat.h"
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	42
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	43	/*
				44	* when auto defrag is enabled we
				45	* queue up these defrag structs to remember which
				46	* inodes need defragging passes
				47	*/
				48	struct inode_defrag {
				49	struct rb_node rb_node;
				50	/* objectid */
				51	u64 ino;
				52	/*
				53	* transid where the defrag was added, we search for
				54	* extents newer than this
				55	*/
				56	u64 transid;
				57
				58	/* root objectid */
				59	u64 root;
				60
				61	/* last offset we were able to defrag */
				62	u64 last_offset;
				63
				64	/* if we've wrapped around back to zero once already */
				65	int cycled;
				66	};
				67
				68	/* pop a record for an inode into the defrag tree. The lock
				69	* must be held already
				70	*
				71	* If you're inserting a record for an older transid than an
				72	* existing record, the transid already in the tree is lowered
				73	*
				74	* If an existing record is found the defrag item you
				75	* pass in is freed
				76	*/
Wanlong Gao	a0f98dd	2011-07-18 12:19:35 +0000	[diff] [blame]	77	static void __btrfs_add_inode_defrag(struct inode *inode,
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	78	struct inode_defrag *defrag)
				79	{
				80	struct btrfs_root *root = BTRFS_I(inode)->root;
				81	struct inode_defrag *entry;
				82	struct rb_node **p;
				83	struct rb_node *parent = NULL;
				84
				85	p = &root->fs_info->defrag_inodes.rb_node;
				86	while (*p) {
				87	parent = *p;
				88	entry = rb_entry(parent, struct inode_defrag, rb_node);
				89
				90	if (defrag->ino < entry->ino)
				91	p = &parent->rb_left;
				92	else if (defrag->ino > entry->ino)
				93	p = &parent->rb_right;
				94	else {
				95	/* if we're reinserting an entry for
				96	* an old defrag run, make sure to
				97	* lower the transid of our existing record
				98	*/
				99	if (defrag->transid < entry->transid)
				100	entry->transid = defrag->transid;
				101	if (defrag->last_offset > entry->last_offset)
				102	entry->last_offset = defrag->last_offset;
				103	goto exists;
				104	}
				105	}
				106	BTRFS_I(inode)->in_defrag = 1;
				107	rb_link_node(&defrag->rb_node, parent, p);
				108	rb_insert_color(&defrag->rb_node, &root->fs_info->defrag_inodes);
Wanlong Gao	a0f98dd	2011-07-18 12:19:35 +0000	[diff] [blame]	109	return;
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	110
				111	exists:
				112	kfree(defrag);
Wanlong Gao	a0f98dd	2011-07-18 12:19:35 +0000	[diff] [blame]	113	return;
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	114
				115	}
				116
				117	/*
				118	* insert a defrag record for this inode if auto defrag is
				119	* enabled
				120	*/
				121	int btrfs_add_inode_defrag(struct btrfs_trans_handle *trans,
				122	struct inode *inode)
				123	{
				124	struct btrfs_root *root = BTRFS_I(inode)->root;
				125	struct inode_defrag *defrag;
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	126	u64 transid;
				127
				128	if (!btrfs_test_opt(root, AUTO_DEFRAG))
				129	return 0;
				130
David Sterba	7841cb2	2011-05-31 18:07:27 +0200	[diff] [blame]	131	if (btrfs_fs_closing(root->fs_info))
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	132	return 0;
				133
				134	if (BTRFS_I(inode)->in_defrag)
				135	return 0;
				136
				137	if (trans)
				138	transid = trans->transid;
				139	else
				140	transid = BTRFS_I(inode)->root->last_trans;
				141
				142	defrag = kzalloc(sizeof(*defrag), GFP_NOFS);
				143	if (!defrag)
				144	return -ENOMEM;
				145
David Sterba	a4689d2	2011-05-31 17:08:14 +0000	[diff] [blame]	146	defrag->ino = btrfs_ino(inode);
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	147	defrag->transid = transid;
				148	defrag->root = root->root_key.objectid;
				149
				150	spin_lock(&root->fs_info->defrag_inodes_lock);
				151	if (!BTRFS_I(inode)->in_defrag)
Wanlong Gao	a0f98dd	2011-07-18 12:19:35 +0000	[diff] [blame]	152	__btrfs_add_inode_defrag(inode, defrag);
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	153	spin_unlock(&root->fs_info->defrag_inodes_lock);
Wanlong Gao	a0f98dd	2011-07-18 12:19:35 +0000	[diff] [blame]	154	return 0;
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	155	}
				156
				157	/*
				158	* must be called with the defrag_inodes lock held
				159	*/
				160	struct inode_defrag btrfs_find_defrag_inode(struct btrfs_fs_info info, u64 ino,
				161	struct rb_node **next)
				162	{
				163	struct inode_defrag *entry = NULL;
				164	struct rb_node *p;
				165	struct rb_node *parent = NULL;
				166
				167	p = info->defrag_inodes.rb_node;
				168	while (p) {
				169	parent = p;
				170	entry = rb_entry(parent, struct inode_defrag, rb_node);
				171
				172	if (ino < entry->ino)
				173	p = parent->rb_left;
				174	else if (ino > entry->ino)
				175	p = parent->rb_right;
				176	else
				177	return entry;
				178	}
				179
				180	if (next) {
				181	while (parent && ino > entry->ino) {
				182	parent = rb_next(parent);
				183	entry = rb_entry(parent, struct inode_defrag, rb_node);
				184	}
				185	*next = parent;
				186	}
				187	return NULL;
				188	}
				189
				190	/*
				191	* run through the list of inodes in the FS that need
				192	* defragging
				193	*/
				194	int btrfs_run_defrag_inodes(struct btrfs_fs_info *fs_info)
				195	{
				196	struct inode_defrag *defrag;
				197	struct btrfs_root *inode_root;
				198	struct inode *inode;
				199	struct rb_node *n;
				200	struct btrfs_key key;
				201	struct btrfs_ioctl_defrag_range_args range;
				202	u64 first_ino = 0;
				203	int num_defrag;
				204	int defrag_batch = 1024;
				205
				206	memset(&range, 0, sizeof(range));
				207	range.len = (u64)-1;
				208
				209	atomic_inc(&fs_info->defrag_running);
				210	spin_lock(&fs_info->defrag_inodes_lock);
				211	while(1) {
				212	n = NULL;
				213
				214	/* find an inode to defrag */
				215	defrag = btrfs_find_defrag_inode(fs_info, first_ino, &n);
				216	if (!defrag) {
				217	if (n)
				218	defrag = rb_entry(n, struct inode_defrag, rb_node);
				219	else if (first_ino) {
				220	first_ino = 0;
				221	continue;
				222	} else {
				223	break;
				224	}
				225	}
				226
				227	/* remove it from the rbtree */
				228	first_ino = defrag->ino + 1;
				229	rb_erase(&defrag->rb_node, &fs_info->defrag_inodes);
				230
David Sterba	7841cb2	2011-05-31 18:07:27 +0200	[diff] [blame]	231	if (btrfs_fs_closing(fs_info))
Chris Mason	4cb5300	2011-05-24 15:35:30 -0400	[diff] [blame]	232	goto next_free;
				233
				234	spin_unlock(&fs_info->defrag_inodes_lock);
				235
				236	/* get the inode */
				237	key.objectid = defrag->root;
				238	btrfs_set_key_type(&key, BTRFS_ROOT_ITEM_KEY);
				239	key.offset = (u64)-1;
				240	inode_root = btrfs_read_fs_root_no_name(fs_info, &key);
				241	if (IS_ERR(inode_root))
				242	goto next;
				243
				244	key.objectid = defrag->ino;
				245	btrfs_set_key_type(&key, BTRFS_INODE_ITEM_KEY);
				246	key.offset = 0;
				247
				248	inode = btrfs_iget(fs_info->sb, &key, inode_root, NULL);
				249	if (IS_ERR(inode))
				250	goto next;
				251
				252	/* do a chunk of defrag */
				253	BTRFS_I(inode)->in_defrag = 0;
				254	range.start = defrag->last_offset;
				255	num_defrag = btrfs_defrag_file(inode, NULL, &range, defrag->transid,
				256	defrag_batch);
				257	/*
				258	* if we filled the whole defrag batch, there
				259	* must be more work to do. Queue this defrag
				260	* again
				261	*/
				262	if (num_defrag == defrag_batch) {
				263	defrag->last_offset = range.start;
				264	__btrfs_add_inode_defrag(inode, defrag);
				265	/*
				266	* we don't want to kfree defrag, we added it back to
				267	* the rbtree
				268	*/
				269	defrag = NULL;
				270	} else if (defrag->last_offset && !defrag->cycled) {
				271	/*
				272	* we didn't fill our defrag batch, but
				273	* we didn't start at zero. Make sure we loop
				274	* around to the start of the file.
				275	*/
				276	defrag->last_offset = 0;
				277	defrag->cycled = 1;
				278	__btrfs_add_inode_defrag(inode, defrag);
				279	defrag = NULL;
				280	}
				281
				282	iput(inode);
				283	next:
				284	spin_lock(&fs_info->defrag_inodes_lock);
				285	next_free:
				286	kfree(defrag);
				287	}
				288	spin_unlock(&fs_info->defrag_inodes_lock);
				289
				290	atomic_dec(&fs_info->defrag_running);
				291
				292	/*
				293	* during unmount, we use the transaction_wait queue to
				294	* wait for the defragger to stop
				295	*/
				296	wake_up(&fs_info->transaction_wait);
				297	return 0;
				298	}
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	299
Chris Mason	d352ac6	2008-09-29 15:18:18 -0400	[diff] [blame]	300	/* simple helper to fault in pages and copy. This should go away
				301	* and be replaced with calls into generic code.
				302	*/
Chris Mason	d397712	2009-01-05 21:25:51 -0500	[diff] [blame]	303	static noinline int btrfs_copy_from_user(loff_t pos, int num_pages,
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	304	size_t write_bytes,
Chris Mason	a1b32a5	2008-09-05 16:09:51 -0400	[diff] [blame]	305	struct page **prepared_pages,
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	306	struct iov_iter *i)
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	307	{
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	308	size_t copied = 0;
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	309	size_t total_copied = 0;
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	310	int pg = 0;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	311	int offset = pos & (PAGE_CACHE_SIZE - 1);
				312
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	313	while (write_bytes > 0) {
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	314	size_t count = min_t(size_t,
				315	PAGE_CACHE_SIZE - offset, write_bytes);
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	316	struct page *page = prepared_pages[pg];
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	317	/*
				318	* Copy data from userspace to the current page
				319	*
				320	* Disable pagefault to avoid recursive lock since
				321	* the pages are already locked
				322	*/
				323	pagefault_disable();
				324	copied = iov_iter_copy_from_user_atomic(page, i, offset, count);
				325	pagefault_enable();
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	326
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	327	/* Flush processor's dcache for this page */
				328	flush_dcache_page(page);
Chris Mason	31339ac	2011-03-07 11:10:24 -0500	[diff] [blame]	329
				330	/*
				331	* if we get a partial write, we can end up with
				332	* partially up to date pages. These add
				333	* a lot of complexity, so make sure they don't
				334	* happen by forcing this copy to be retried.
				335	*
				336	* The rest of the btrfs_file_write code will fall
				337	* back to page at a time copies after we return 0.
				338	*/
				339	if (!PageUptodate(page) && copied < count)
				340	copied = 0;
				341
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	342	iov_iter_advance(i, copied);
				343	write_bytes -= copied;
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	344	total_copied += copied;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	345
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	346	/* Return to btrfs_file_aio_write to fault page */
Josef Bacik	9f570b8	2011-01-25 12:42:37 -0500	[diff] [blame]	347	if (unlikely(copied == 0))
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	348	break;
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	349
				350	if (unlikely(copied < PAGE_CACHE_SIZE - offset)) {
				351	offset += copied;
				352	} else {
				353	pg++;
				354	offset = 0;
				355	}
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	356	}
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	357	return total_copied;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	358	}
				359
Chris Mason	d352ac6	2008-09-29 15:18:18 -0400	[diff] [blame]	360	/*
				361	* unlocks pages after btrfs_file_write is done with them
				362	*/
Josef Bacik	be1a12a	2011-04-06 13:05:22 -0400	[diff] [blame]	363	void btrfs_drop_pages(struct page **pages, size_t num_pages)
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	364	{
				365	size_t i;
				366	for (i = 0; i < num_pages; i++) {
Chris Mason	d352ac6	2008-09-29 15:18:18 -0400	[diff] [blame]	367	/* page checked is some magic around finding pages that
				368	* have been modified without going through btrfs_set_page_dirty
				369	* clear it here
				370	*/
Chris Mason	4a09675	2008-07-21 10:29:44 -0400	[diff] [blame]	371	ClearPageChecked(pages[i]);
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	372	unlock_page(pages[i]);
				373	mark_page_accessed(pages[i]);
				374	page_cache_release(pages[i]);
				375	}
				376	}
				377
Chris Mason	d352ac6	2008-09-29 15:18:18 -0400	[diff] [blame]	378	/*
				379	* after copy_from_user, pages need to be dirtied and we need to make
				380	* sure holes are created between the current EOF and the start of
				381	* any next extents (if required).
				382	*
				383	* this also makes the decision about creating an inline extent vs
				384	* doing real data extents, marking pages dirty and delalloc as required.
				385	*/
Josef Bacik	be1a12a	2011-04-06 13:05:22 -0400	[diff] [blame]	386	int btrfs_dirty_pages(struct btrfs_root root, struct inode inode,
				387	struct page **pages, size_t num_pages,
				388	loff_t pos, size_t write_bytes,
				389	struct extent_state **cached)
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	390	{
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	391	int err = 0;
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	392	int i;
Chris Mason	db94535	2007-10-15 16:15:53 -0400	[diff] [blame]	393	u64 num_bytes;
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	394	u64 start_pos;
				395	u64 end_of_last_block;
				396	u64 end_pos = pos + write_bytes;
				397	loff_t isize = i_size_read(inode);
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	398
Chris Mason	5f39d39	2007-10-15 16:14:19 -0400	[diff] [blame]	399	start_pos = pos & ~((u64)root->sectorsize - 1);
Chris Mason	db94535	2007-10-15 16:15:53 -0400	[diff] [blame]	400	num_bytes = (write_bytes + pos - start_pos +
				401	root->sectorsize - 1) & ~((u64)root->sectorsize - 1);
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	402
Chris Mason	db94535	2007-10-15 16:15:53 -0400	[diff] [blame]	403	end_of_last_block = start_pos + num_bytes - 1;
Josef Bacik	2ac55d4	2010-02-03 19:33:23 +0000	[diff] [blame]	404	err = btrfs_set_extent_delalloc(inode, start_pos, end_of_last_block,
Josef Bacik	be1a12a	2011-04-06 13:05:22 -0400	[diff] [blame]	405	cached);
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	406	if (err)
				407	return err;
Josef Bacik	9ed74f2	2009-09-11 16:12:44 -0400	[diff] [blame]	408
Chris Mason	c8b9781	2008-10-29 14:49:59 -0400	[diff] [blame]	409	for (i = 0; i < num_pages; i++) {
				410	struct page *p = pages[i];
				411	SetPageUptodate(p);
				412	ClearPageChecked(p);
				413	set_page_dirty(p);
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	414	}
Josef Bacik	9f570b8	2011-01-25 12:42:37 -0500	[diff] [blame]	415
				416	/*
				417	* we've only changed i_size in ram, and we haven't updated
				418	* the disk i_size. There is no need to log the inode
				419	* at this time.
				420	*/
				421	if (end_pos > isize)
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	422	i_size_write(inode, end_pos);
Yan, Zheng	a22285a	2010-05-16 10:48:46 -0400	[diff] [blame]	423	return 0;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	424	}
				425
Chris Mason	d352ac6	2008-09-29 15:18:18 -0400	[diff] [blame]	426	/*
				427	* this drops all the extents in the cache that intersect the range
				428	* [start, end]. Existing extents are split as required.
				429	*/
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	430	int btrfs_drop_extent_cache(struct inode *inode, u64 start, u64 end,
				431	int skip_pinned)
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	432	{
				433	struct extent_map *em;
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	434	struct extent_map *split = NULL;
				435	struct extent_map *split2 = NULL;
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	436	struct extent_map_tree *em_tree = &BTRFS_I(inode)->extent_tree;
Yan	39b5637	2008-02-15 10:40:50 -0500	[diff] [blame]	437	u64 len = end - start + 1;
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	438	int ret;
				439	int testend = 1;
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	440	unsigned long flags;
Chris Mason	c8b9781	2008-10-29 14:49:59 -0400	[diff] [blame]	441	int compressed = 0;
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	442
Chris Mason	e6dcd2d	2008-07-17 12:53:50 -0400	[diff] [blame]	443	WARN_ON(end < start);
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	444	if (end == (u64)-1) {
Yan	39b5637	2008-02-15 10:40:50 -0500	[diff] [blame]	445	len = (u64)-1;
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	446	testend = 0;
				447	}
Chris Mason	d397712	2009-01-05 21:25:51 -0500	[diff] [blame]	448	while (1) {
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	449	if (!split)
David Sterba	172ddd6	2011-04-21 00:48:27 +0200	[diff] [blame]	450	split = alloc_extent_map();
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	451	if (!split2)
David Sterba	172ddd6	2011-04-21 00:48:27 +0200	[diff] [blame]	452	split2 = alloc_extent_map();
Tsutomu Itoh	c26a920	2011-02-14 00:45:29 +0000	[diff] [blame]	453	BUG_ON(!split \|\| !split2);
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	454
Chris Mason	890871b	2009-09-02 16:24:52 -0400	[diff] [blame]	455	write_lock(&em_tree->lock);
Yan	39b5637	2008-02-15 10:40:50 -0500	[diff] [blame]	456	em = lookup_extent_mapping(em_tree, start, len);
Chris Mason	d1310b2	2008-01-24 16:13:08 -0500	[diff] [blame]	457	if (!em) {
Chris Mason	890871b	2009-09-02 16:24:52 -0400	[diff] [blame]	458	write_unlock(&em_tree->lock);
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	459	break;
Chris Mason	d1310b2	2008-01-24 16:13:08 -0500	[diff] [blame]	460	}
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	461	flags = em->flags;
				462	if (skip_pinned && test_bit(EXTENT_FLAG_PINNED, &em->flags)) {
Yan, Zheng	55ef689	2009-11-12 09:36:44 +0000	[diff] [blame]	463	if (testend && em->start + em->len >= start + len) {
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	464	free_extent_map(em);
Chris Mason	a1ed835	2009-09-11 12:27:37 -0400	[diff] [blame]	465	write_unlock(&em_tree->lock);
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	466	break;
				467	}
Yan, Zheng	55ef689	2009-11-12 09:36:44 +0000	[diff] [blame]	468	start = em->start + em->len;
				469	if (testend)
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	470	len = start + len - (em->start + em->len);
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	471	free_extent_map(em);
Chris Mason	a1ed835	2009-09-11 12:27:37 -0400	[diff] [blame]	472	write_unlock(&em_tree->lock);
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	473	continue;
				474	}
Chris Mason	c8b9781	2008-10-29 14:49:59 -0400	[diff] [blame]	475	compressed = test_bit(EXTENT_FLAG_COMPRESSED, &em->flags);
Chris Mason	3ce7e67	2008-07-31 15:42:54 -0400	[diff] [blame]	476	clear_bit(EXTENT_FLAG_PINNED, &em->flags);
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	477	remove_extent_mapping(em_tree, em);
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	478
				479	if (em->block_start < EXTENT_MAP_LAST_BYTE &&
				480	em->start < start) {
				481	split->start = em->start;
				482	split->len = start - em->start;
Yan Zheng	ff5b7ee	2008-11-10 07:34:43 -0500	[diff] [blame]	483	split->orig_start = em->orig_start;
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	484	split->block_start = em->block_start;
Chris Mason	c8b9781	2008-10-29 14:49:59 -0400	[diff] [blame]	485
				486	if (compressed)
				487	split->block_len = em->block_len;
				488	else
				489	split->block_len = split->len;
				490
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	491	split->bdev = em->bdev;
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	492	split->flags = flags;
Li Zefan	261507a0	2010-12-17 14:21:50 +0800	[diff] [blame]	493	split->compress_type = em->compress_type;
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	494	ret = add_extent_mapping(em_tree, split);
				495	BUG_ON(ret);
				496	free_extent_map(split);
				497	split = split2;
				498	split2 = NULL;
				499	}
				500	if (em->block_start < EXTENT_MAP_LAST_BYTE &&
				501	testend && em->start + em->len > start + len) {
				502	u64 diff = start + len - em->start;
				503
				504	split->start = start + len;
				505	split->len = em->start + em->len - (start + len);
				506	split->bdev = em->bdev;
Zheng Yan	5b21f2e	2008-09-26 10:05:38 -0400	[diff] [blame]	507	split->flags = flags;
Li Zefan	261507a0	2010-12-17 14:21:50 +0800	[diff] [blame]	508	split->compress_type = em->compress_type;
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	509
Chris Mason	c8b9781	2008-10-29 14:49:59 -0400	[diff] [blame]	510	if (compressed) {
				511	split->block_len = em->block_len;
				512	split->block_start = em->block_start;
Chris Mason	445a694	2008-11-10 11:53:33 -0500	[diff] [blame]	513	split->orig_start = em->orig_start;
Chris Mason	c8b9781	2008-10-29 14:49:59 -0400	[diff] [blame]	514	} else {
				515	split->block_len = split->len;
				516	split->block_start = em->block_start + diff;
Chris Mason	445a694	2008-11-10 11:53:33 -0500	[diff] [blame]	517	split->orig_start = split->start;
Chris Mason	c8b9781	2008-10-29 14:49:59 -0400	[diff] [blame]	518	}
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	519
				520	ret = add_extent_mapping(em_tree, split);
				521	BUG_ON(ret);
				522	free_extent_map(split);
				523	split = NULL;
				524	}
Chris Mason	890871b	2009-09-02 16:24:52 -0400	[diff] [blame]	525	write_unlock(&em_tree->lock);
Chris Mason	d1310b2	2008-01-24 16:13:08 -0500	[diff] [blame]	526
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	527	/* once for us */
				528	free_extent_map(em);
				529	/* once for the tree*/
				530	free_extent_map(em);
				531	}
Chris Mason	3b95151	2008-04-17 11:29:12 -0400	[diff] [blame]	532	if (split)
				533	free_extent_map(split);
				534	if (split2)
				535	free_extent_map(split2);
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	536	return 0;
				537	}
				538
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	539	/*
				540	* this is very complex, but the basic idea is to drop all extents
				541	* in the range start - end. hint_block is filled in with a block number
				542	* that would be a good hint to the block allocator for this file.
				543	*
				544	* If an extent intersects the range but is not entirely inside the range
				545	* it is either truncated or split. Anything entirely inside the range
				546	* is deleted from the tree.
				547	*/
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	548	int btrfs_drop_extents(struct btrfs_trans_handle trans, struct inode inode,
				549	u64 start, u64 end, u64 *hint_byte, int drop_cache)
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	550	{
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	551	struct btrfs_root *root = BTRFS_I(inode)->root;
Chris Mason	00f5c79	2007-11-30 10:09:33 -0500	[diff] [blame]	552	struct extent_buffer *leaf;
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	553	struct btrfs_file_extent_item *fi;
Chris Mason	00f5c79	2007-11-30 10:09:33 -0500	[diff] [blame]	554	struct btrfs_path *path;
				555	struct btrfs_key key;
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	556	struct btrfs_key new_key;
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	557	u64 ino = btrfs_ino(inode);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	558	u64 search_start = start;
				559	u64 disk_bytenr = 0;
				560	u64 num_bytes = 0;
				561	u64 extent_offset = 0;
				562	u64 extent_end = 0;
				563	int del_nr = 0;
				564	int del_slot = 0;
				565	int extent_type;
Chris Mason	ccd467d	2007-06-28 15:57:36 -0400	[diff] [blame]	566	int recow;
Chris Mason	00f5c79	2007-11-30 10:09:33 -0500	[diff] [blame]	567	int ret;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	568
Chris Mason	a1ed835	2009-09-11 12:27:37 -0400	[diff] [blame]	569	if (drop_cache)
				570	btrfs_drop_extent_cache(inode, start, end - 1, 0);
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	571
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	572	path = btrfs_alloc_path();
				573	if (!path)
				574	return -ENOMEM;
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	575
Chris Mason	d397712	2009-01-05 21:25:51 -0500	[diff] [blame]	576	while (1) {
Chris Mason	ccd467d	2007-06-28 15:57:36 -0400	[diff] [blame]	577	recow = 0;
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	578	ret = btrfs_lookup_file_extent(trans, root, path, ino,
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	579	search_start, -1);
				580	if (ret < 0)
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	581	break;
				582	if (ret > 0 && path->slots[0] > 0 && search_start == start) {
				583	leaf = path->nodes[0];
				584	btrfs_item_key_to_cpu(leaf, &key, path->slots[0] - 1);
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	585	if (key.objectid == ino &&
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	586	key.type == BTRFS_EXTENT_DATA_KEY)
				587	path->slots[0]--;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	588	}
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	589	ret = 0;
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	590	next_slot:
				591	leaf = path->nodes[0];
				592	if (path->slots[0] >= btrfs_header_nritems(leaf)) {
				593	BUG_ON(del_nr > 0);
				594	ret = btrfs_next_leaf(root, path);
				595	if (ret < 0)
				596	break;
				597	if (ret > 0) {
				598	ret = 0;
				599	break;
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	600	}
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	601	leaf = path->nodes[0];
				602	recow = 1;
				603	}
				604
				605	btrfs_item_key_to_cpu(leaf, &key, path->slots[0]);
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	606	if (key.objectid > ino \|\|
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	607	key.type > BTRFS_EXTENT_DATA_KEY \|\| key.offset >= end)
				608	break;
				609
				610	fi = btrfs_item_ptr(leaf, path->slots[0],
				611	struct btrfs_file_extent_item);
				612	extent_type = btrfs_file_extent_type(leaf, fi);
				613
				614	if (extent_type == BTRFS_FILE_EXTENT_REG \|\|
				615	extent_type == BTRFS_FILE_EXTENT_PREALLOC) {
				616	disk_bytenr = btrfs_file_extent_disk_bytenr(leaf, fi);
				617	num_bytes = btrfs_file_extent_disk_num_bytes(leaf, fi);
				618	extent_offset = btrfs_file_extent_offset(leaf, fi);
				619	extent_end = key.offset +
				620	btrfs_file_extent_num_bytes(leaf, fi);
				621	} else if (extent_type == BTRFS_FILE_EXTENT_INLINE) {
				622	extent_end = key.offset +
				623	btrfs_file_extent_inline_len(leaf, fi);
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	624	} else {
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	625	WARN_ON(1);
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	626	extent_end = search_start;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	627	}
				628
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	629	if (extent_end <= search_start) {
				630	path->slots[0]++;
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	631	goto next_slot;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	632	}
				633
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	634	search_start = max(key.offset, start);
				635	if (recow) {
David Sterba	b3b4aa7	2011-04-21 01:20:15 +0200	[diff] [blame]	636	btrfs_release_path(path);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	637	continue;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	638	}
Chris Mason	771ed68	2008-11-06 22:02:51 -0500	[diff] [blame]	639
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	640	/*
				641	* \| - range to drop - \|
				642	* \| -------- extent -------- \|
				643	*/
				644	if (start > key.offset && end < extent_end) {
				645	BUG_ON(del_nr > 0);
				646	BUG_ON(extent_type == BTRFS_FILE_EXTENT_INLINE);
				647
				648	memcpy(&new_key, &key, sizeof(new_key));
				649	new_key.offset = start;
				650	ret = btrfs_duplicate_item(trans, root, path,
				651	&new_key);
				652	if (ret == -EAGAIN) {
David Sterba	b3b4aa7	2011-04-21 01:20:15 +0200	[diff] [blame]	653	btrfs_release_path(path);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	654	continue;
				655	}
				656	if (ret < 0)
				657	break;
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	658
Chris Mason	5f39d39	2007-10-15 16:14:19 -0400	[diff] [blame]	659	leaf = path->nodes[0];
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	660	fi = btrfs_item_ptr(leaf, path->slots[0] - 1,
				661	struct btrfs_file_extent_item);
				662	btrfs_set_file_extent_num_bytes(leaf, fi,
				663	start - key.offset);
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	664
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	665	fi = btrfs_item_ptr(leaf, path->slots[0],
				666	struct btrfs_file_extent_item);
Chris Mason	c8b9781	2008-10-29 14:49:59 -0400	[diff] [blame]	667
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	668	extent_offset += start - key.offset;
				669	btrfs_set_file_extent_offset(leaf, fi, extent_offset);
				670	btrfs_set_file_extent_num_bytes(leaf, fi,
				671	extent_end - start);
				672	btrfs_mark_buffer_dirty(leaf);
Chris Mason	db94535	2007-10-15 16:15:53 -0400	[diff] [blame]	673
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	674	if (disk_bytenr > 0) {
				675	ret = btrfs_inc_extent_ref(trans, root,
				676	disk_bytenr, num_bytes, 0,
				677	root->root_key.objectid,
				678	new_key.objectid,
				679	start - extent_offset);
Zheng Yan	31840ae	2008-09-23 13:14:14 -0400	[diff] [blame]	680	BUG_ON(ret);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	681	*hint_byte = disk_bytenr;
Zheng Yan	31840ae	2008-09-23 13:14:14 -0400	[diff] [blame]	682	}
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	683	key.offset = start;
				684	}
				685	/*
				686	* \| ---- range to drop ----- \|
				687	* \| -------- extent -------- \|
				688	*/
				689	if (start <= key.offset && end < extent_end) {
				690	BUG_ON(extent_type == BTRFS_FILE_EXTENT_INLINE);
				691
				692	memcpy(&new_key, &key, sizeof(new_key));
				693	new_key.offset = end;
				694	btrfs_set_item_key_safe(trans, root, path, &new_key);
				695
				696	extent_offset += end - key.offset;
				697	btrfs_set_file_extent_offset(leaf, fi, extent_offset);
				698	btrfs_set_file_extent_num_bytes(leaf, fi,
				699	extent_end - end);
				700	btrfs_mark_buffer_dirty(leaf);
				701	if (disk_bytenr > 0) {
				702	inode_sub_bytes(inode, end - key.offset);
				703	*hint_byte = disk_bytenr;
				704	}
				705	break;
Zheng Yan	31840ae	2008-09-23 13:14:14 -0400	[diff] [blame]	706	}
				707
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	708	search_start = extent_end;
				709	/*
				710	* \| ---- range to drop ----- \|
				711	* \| -------- extent -------- \|
				712	*/
				713	if (start > key.offset && end >= extent_end) {
				714	BUG_ON(del_nr > 0);
				715	BUG_ON(extent_type == BTRFS_FILE_EXTENT_INLINE);
				716
				717	btrfs_set_file_extent_num_bytes(leaf, fi,
				718	start - key.offset);
				719	btrfs_mark_buffer_dirty(leaf);
				720	if (disk_bytenr > 0) {
				721	inode_sub_bytes(inode, extent_end - start);
				722	*hint_byte = disk_bytenr;
				723	}
				724	if (end == extent_end)
				725	break;
				726
				727	path->slots[0]++;
				728	goto next_slot;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	729	}
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	730
				731	/*
				732	* \| ---- range to drop ----- \|
				733	* \| ------ extent ------ \|
				734	*/
				735	if (start <= key.offset && end >= extent_end) {
				736	if (del_nr == 0) {
				737	del_slot = path->slots[0];
				738	del_nr = 1;
				739	} else {
				740	BUG_ON(del_slot + del_nr != path->slots[0]);
				741	del_nr++;
				742	}
				743
				744	if (extent_type == BTRFS_FILE_EXTENT_INLINE) {
				745	inode_sub_bytes(inode,
				746	extent_end - key.offset);
				747	extent_end = ALIGN(extent_end,
				748	root->sectorsize);
				749	} else if (disk_bytenr > 0) {
				750	ret = btrfs_free_extent(trans, root,
				751	disk_bytenr, num_bytes, 0,
				752	root->root_key.objectid,
				753	key.objectid, key.offset -
				754	extent_offset);
				755	BUG_ON(ret);
				756	inode_sub_bytes(inode,
				757	extent_end - key.offset);
				758	*hint_byte = disk_bytenr;
				759	}
				760
				761	if (end == extent_end)
				762	break;
				763
				764	if (path->slots[0] + 1 < btrfs_header_nritems(leaf)) {
				765	path->slots[0]++;
				766	goto next_slot;
				767	}
				768
				769	ret = btrfs_del_items(trans, root, path, del_slot,
				770	del_nr);
				771	BUG_ON(ret);
				772
				773	del_nr = 0;
				774	del_slot = 0;
				775
David Sterba	b3b4aa7	2011-04-21 01:20:15 +0200	[diff] [blame]	776	btrfs_release_path(path);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	777	continue;
				778	}
				779
				780	BUG_ON(1);
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	781	}
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	782
				783	if (del_nr > 0) {
				784	ret = btrfs_del_items(trans, root, path, del_slot, del_nr);
				785	BUG_ON(ret);
				786	}
				787
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	788	btrfs_free_path(path);
				789	return ret;
				790	}
				791
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	792	static int extent_mergeable(struct extent_buffer *leaf, int slot,
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	793	u64 objectid, u64 bytenr, u64 orig_offset,
				794	u64 start, u64 end)
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	795	{
				796	struct btrfs_file_extent_item *fi;
				797	struct btrfs_key key;
				798	u64 extent_end;
				799
				800	if (slot < 0 \|\| slot >= btrfs_header_nritems(leaf))
				801	return 0;
				802
				803	btrfs_item_key_to_cpu(leaf, &key, slot);
				804	if (key.objectid != objectid \|\| key.type != BTRFS_EXTENT_DATA_KEY)
				805	return 0;
				806
				807	fi = btrfs_item_ptr(leaf, slot, struct btrfs_file_extent_item);
				808	if (btrfs_file_extent_type(leaf, fi) != BTRFS_FILE_EXTENT_REG \|\|
				809	btrfs_file_extent_disk_bytenr(leaf, fi) != bytenr \|\|
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	810	btrfs_file_extent_offset(leaf, fi) != key.offset - orig_offset \|\|
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	811	btrfs_file_extent_compression(leaf, fi) \|\|
				812	btrfs_file_extent_encryption(leaf, fi) \|\|
				813	btrfs_file_extent_other_encoding(leaf, fi))
				814	return 0;
				815
				816	extent_end = key.offset + btrfs_file_extent_num_bytes(leaf, fi);
				817	if ((start && start != key.offset) \|\| (end && end != extent_end))
				818	return 0;
				819
				820	*start = key.offset;
				821	*end = extent_end;
				822	return 1;
				823	}
				824
				825	/*
				826	* Mark extent in the range start - end as written.
				827	*
				828	* This changes extent type from 'pre-allocated' to 'regular'. If only
				829	* part of extent is marked as written, the extent will be split into
				830	* two or three.
				831	*/
				832	int btrfs_mark_extent_written(struct btrfs_trans_handle *trans,
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	833	struct inode *inode, u64 start, u64 end)
				834	{
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	835	struct btrfs_root *root = BTRFS_I(inode)->root;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	836	struct extent_buffer *leaf;
				837	struct btrfs_path *path;
				838	struct btrfs_file_extent_item *fi;
				839	struct btrfs_key key;
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	840	struct btrfs_key new_key;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	841	u64 bytenr;
				842	u64 num_bytes;
				843	u64 extent_end;
Yan Zheng	5d4f98a	2009-06-10 10:45:14 -0400	[diff] [blame]	844	u64 orig_offset;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	845	u64 other_start;
				846	u64 other_end;
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	847	u64 split;
				848	int del_nr = 0;
				849	int del_slot = 0;
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	850	int recow;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	851	int ret;
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	852	u64 ino = btrfs_ino(inode);
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	853
				854	btrfs_drop_extent_cache(inode, start, end - 1, 0);
				855
				856	path = btrfs_alloc_path();
Mark Fasheh	d8926bb	2011-07-13 10:38:47 -0700	[diff] [blame]	857	if (!path)
				858	return -ENOMEM;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	859	again:
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	860	recow = 0;
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	861	split = start;
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	862	key.objectid = ino;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	863	key.type = BTRFS_EXTENT_DATA_KEY;
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	864	key.offset = split;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	865
				866	ret = btrfs_search_slot(trans, root, &key, path, -1, 1);
Josef Bacik	4141573	2011-03-16 13:59:32 -0400	[diff] [blame]	867	if (ret < 0)
				868	goto out;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	869	if (ret > 0 && path->slots[0] > 0)
				870	path->slots[0]--;
				871
				872	leaf = path->nodes[0];
				873	btrfs_item_key_to_cpu(leaf, &key, path->slots[0]);
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	874	BUG_ON(key.objectid != ino \|\| key.type != BTRFS_EXTENT_DATA_KEY);
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	875	fi = btrfs_item_ptr(leaf, path->slots[0],
				876	struct btrfs_file_extent_item);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	877	BUG_ON(btrfs_file_extent_type(leaf, fi) !=
				878	BTRFS_FILE_EXTENT_PREALLOC);
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	879	extent_end = key.offset + btrfs_file_extent_num_bytes(leaf, fi);
				880	BUG_ON(key.offset > start \|\| extent_end < end);
				881
				882	bytenr = btrfs_file_extent_disk_bytenr(leaf, fi);
				883	num_bytes = btrfs_file_extent_disk_num_bytes(leaf, fi);
Yan Zheng	5d4f98a	2009-06-10 10:45:14 -0400	[diff] [blame]	884	orig_offset = key.offset - btrfs_file_extent_offset(leaf, fi);
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	885	memcpy(&new_key, &key, sizeof(new_key));
				886
				887	if (start == key.offset && end < extent_end) {
				888	other_start = 0;
				889	other_end = start;
				890	if (extent_mergeable(leaf, path->slots[0] - 1,
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	891	ino, bytenr, orig_offset,
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	892	&other_start, &other_end)) {
				893	new_key.offset = end;
				894	btrfs_set_item_key_safe(trans, root, path, &new_key);
				895	fi = btrfs_item_ptr(leaf, path->slots[0],
				896	struct btrfs_file_extent_item);
				897	btrfs_set_file_extent_num_bytes(leaf, fi,
				898	extent_end - end);
				899	btrfs_set_file_extent_offset(leaf, fi,
				900	end - orig_offset);
				901	fi = btrfs_item_ptr(leaf, path->slots[0] - 1,
				902	struct btrfs_file_extent_item);
				903	btrfs_set_file_extent_num_bytes(leaf, fi,
				904	end - other_start);
				905	btrfs_mark_buffer_dirty(leaf);
				906	goto out;
				907	}
				908	}
				909
				910	if (start > key.offset && end == extent_end) {
				911	other_start = end;
				912	other_end = 0;
				913	if (extent_mergeable(leaf, path->slots[0] + 1,
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	914	ino, bytenr, orig_offset,
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	915	&other_start, &other_end)) {
				916	fi = btrfs_item_ptr(leaf, path->slots[0],
				917	struct btrfs_file_extent_item);
				918	btrfs_set_file_extent_num_bytes(leaf, fi,
				919	start - key.offset);
				920	path->slots[0]++;
				921	new_key.offset = start;
				922	btrfs_set_item_key_safe(trans, root, path, &new_key);
				923
				924	fi = btrfs_item_ptr(leaf, path->slots[0],
				925	struct btrfs_file_extent_item);
				926	btrfs_set_file_extent_num_bytes(leaf, fi,
				927	other_end - start);
				928	btrfs_set_file_extent_offset(leaf, fi,
				929	start - orig_offset);
				930	btrfs_mark_buffer_dirty(leaf);
				931	goto out;
				932	}
				933	}
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	934
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	935	while (start > key.offset \|\| end < extent_end) {
				936	if (key.offset == start)
				937	split = end;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	938
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	939	new_key.offset = split;
				940	ret = btrfs_duplicate_item(trans, root, path, &new_key);
				941	if (ret == -EAGAIN) {
David Sterba	b3b4aa7	2011-04-21 01:20:15 +0200	[diff] [blame]	942	btrfs_release_path(path);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	943	goto again;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	944	}
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	945	BUG_ON(ret < 0);
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	946
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	947	leaf = path->nodes[0];
				948	fi = btrfs_item_ptr(leaf, path->slots[0] - 1,
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	949	struct btrfs_file_extent_item);
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	950	btrfs_set_file_extent_num_bytes(leaf, fi,
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	951	split - key.offset);
				952
				953	fi = btrfs_item_ptr(leaf, path->slots[0],
				954	struct btrfs_file_extent_item);
				955
				956	btrfs_set_file_extent_offset(leaf, fi, split - orig_offset);
				957	btrfs_set_file_extent_num_bytes(leaf, fi,
				958	extent_end - split);
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	959	btrfs_mark_buffer_dirty(leaf);
				960
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	961	ret = btrfs_inc_extent_ref(trans, root, bytenr, num_bytes, 0,
				962	root->root_key.objectid,
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	963	ino, orig_offset);
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	964	BUG_ON(ret);
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	965
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	966	if (split == start) {
				967	key.offset = start;
				968	} else {
				969	BUG_ON(start != key.offset);
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	970	path->slots[0]--;
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	971	extent_end = end;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	972	}
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	973	recow = 1;
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	974	}
				975
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	976	other_start = end;
				977	other_end = 0;
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	978	if (extent_mergeable(leaf, path->slots[0] + 1,
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	979	ino, bytenr, orig_offset,
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	980	&other_start, &other_end)) {
				981	if (recow) {
David Sterba	b3b4aa7	2011-04-21 01:20:15 +0200	[diff] [blame]	982	btrfs_release_path(path);
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	983	goto again;
				984	}
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	985	extent_end = other_end;
				986	del_slot = path->slots[0] + 1;
				987	del_nr++;
				988	ret = btrfs_free_extent(trans, root, bytenr, num_bytes,
				989	0, root->root_key.objectid,
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	990	ino, orig_offset);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	991	BUG_ON(ret);
				992	}
				993	other_start = 0;
				994	other_end = start;
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	995	if (extent_mergeable(leaf, path->slots[0] - 1,
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	996	ino, bytenr, orig_offset,
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	997	&other_start, &other_end)) {
				998	if (recow) {
David Sterba	b3b4aa7	2011-04-21 01:20:15 +0200	[diff] [blame]	999	btrfs_release_path(path);
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	1000	goto again;
				1001	}
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	1002	key.offset = other_start;
				1003	del_slot = path->slots[0];
				1004	del_nr++;
				1005	ret = btrfs_free_extent(trans, root, bytenr, num_bytes,
				1006	0, root->root_key.objectid,
Li Zefan	33345d01	2011-04-20 10:31:50 +0800	[diff] [blame]	1007	ino, orig_offset);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	1008	BUG_ON(ret);
				1009	}
				1010	if (del_nr == 0) {
Shaohua Li	3f6fae9	2010-02-11 07:43:00 +0000	[diff] [blame]	1011	fi = btrfs_item_ptr(leaf, path->slots[0],
				1012	struct btrfs_file_extent_item);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	1013	btrfs_set_file_extent_type(leaf, fi,
				1014	BTRFS_FILE_EXTENT_REG);
				1015	btrfs_mark_buffer_dirty(leaf);
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	1016	} else {
Shaohua Li	3f6fae9	2010-02-11 07:43:00 +0000	[diff] [blame]	1017	fi = btrfs_item_ptr(leaf, del_slot - 1,
				1018	struct btrfs_file_extent_item);
Yan, Zheng	6c7d54a	2010-01-15 08:43:09 +0000	[diff] [blame]	1019	btrfs_set_file_extent_type(leaf, fi,
				1020	BTRFS_FILE_EXTENT_REG);
				1021	btrfs_set_file_extent_num_bytes(leaf, fi,
				1022	extent_end - key.offset);
				1023	btrfs_mark_buffer_dirty(leaf);
				1024
				1025	ret = btrfs_del_items(trans, root, path, del_slot, del_nr);
				1026	BUG_ON(ret);
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	1027	}
Yan, Zheng	920bbbf	2009-11-12 09:34:08 +0000	[diff] [blame]	1028	out:
Yan Zheng	d899e05	2008-10-30 14:25:28 -0400	[diff] [blame]	1029	btrfs_free_path(path);
				1030	return 0;
				1031	}
				1032
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1033	/*
Chris Mason	b1bf862	2011-02-28 09:52:08 -0500	[diff] [blame]	1034	* on error we return an unlocked page and the error value
				1035	* on success we return a locked page and 0
				1036	*/
				1037	static int prepare_uptodate_page(struct page *page, u64 pos)
				1038	{
				1039	int ret = 0;
				1040
				1041	if ((pos & (PAGE_CACHE_SIZE - 1)) && !PageUptodate(page)) {
				1042	ret = btrfs_readpage(NULL, page);
				1043	if (ret)
				1044	return ret;
				1045	lock_page(page);
				1046	if (!PageUptodate(page)) {
				1047	unlock_page(page);
				1048	return -EIO;
				1049	}
				1050	}
				1051	return 0;
				1052	}
				1053
				1054	/*
Chris Mason	d352ac6	2008-09-29 15:18:18 -0400	[diff] [blame]	1055	* this gets pages into the page cache and locks them down, it also properly
				1056	* waits for data=ordered extents to finish before allowing the pages to be
				1057	* modified.
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1058	*/
Chris Mason	d397712	2009-01-05 21:25:51 -0500	[diff] [blame]	1059	static noinline int prepare_pages(struct btrfs_root root, struct file file,
Chris Mason	98ed517	2008-01-03 10:01:48 -0500	[diff] [blame]	1060	struct page **pages, size_t num_pages,
				1061	loff_t pos, unsigned long first_index,
Mitch Harder	341d14f	2011-07-12 19:43:45 +0000	[diff] [blame]	1062	size_t write_bytes)
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1063	{
Josef Bacik	2ac55d4	2010-02-03 19:33:23 +0000	[diff] [blame]	1064	struct extent_state *cached_state = NULL;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1065	int i;
				1066	unsigned long index = pos >> PAGE_CACHE_SHIFT;
Chris Mason	6da6aba	2007-12-18 16:15:09 -0500	[diff] [blame]	1067	struct inode *inode = fdentry(file)->d_inode;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1068	int err = 0;
Chris Mason	b1bf862	2011-02-28 09:52:08 -0500	[diff] [blame]	1069	int faili = 0;
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	1070	u64 start_pos;
Chris Mason	e6dcd2d	2008-07-17 12:53:50 -0400	[diff] [blame]	1071	u64 last_pos;
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	1072
Chris Mason	5f39d39	2007-10-15 16:14:19 -0400	[diff] [blame]	1073	start_pos = pos & ~((u64)root->sectorsize - 1);
Chris Mason	e6dcd2d	2008-07-17 12:53:50 -0400	[diff] [blame]	1074	last_pos = ((u64)index + num_pages) << PAGE_CACHE_SHIFT;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1075
Yan Zheng	9036c10	2008-10-30 14:19:41 -0400	[diff] [blame]	1076	if (start_pos > inode->i_size) {
Josef Bacik	a41ad39	2011-01-31 15:30:16 -0500	[diff] [blame]	1077	err = btrfs_cont_expand(inode, i_size_read(inode), start_pos);
Yan Zheng	9036c10	2008-10-30 14:19:41 -0400	[diff] [blame]	1078	if (err)
				1079	return err;
				1080	}
				1081
Chris Mason	e6dcd2d	2008-07-17 12:53:50 -0400	[diff] [blame]	1082	again:
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1083	for (i = 0; i < num_pages; i++) {
Josef Bacik	a94733d	2011-07-11 10:47:06 -0400	[diff] [blame]	1084	pages[i] = find_or_create_page(inode->i_mapping, index + i,
				1085	GFP_NOFS);
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1086	if (!pages[i]) {
Chris Mason	b1bf862	2011-02-28 09:52:08 -0500	[diff] [blame]	1087	faili = i - 1;
				1088	err = -ENOMEM;
				1089	goto fail;
				1090	}
				1091
				1092	if (i == 0)
				1093	err = prepare_uptodate_page(pages[i], pos);
				1094	if (i == num_pages - 1)
				1095	err = prepare_uptodate_page(pages[i],
				1096	pos + write_bytes);
				1097	if (err) {
				1098	page_cache_release(pages[i]);
				1099	faili = i - 1;
				1100	goto fail;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1101	}
Chris Mason	ccd467d	2007-06-28 15:57:36 -0400	[diff] [blame]	1102	wait_on_page_writeback(pages[i]);
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1103	}
Chris Mason	b1bf862	2011-02-28 09:52:08 -0500	[diff] [blame]	1104	err = 0;
Chris Mason	0762704	2008-02-19 11:29:24 -0500	[diff] [blame]	1105	if (start_pos < inode->i_size) {
Chris Mason	e6dcd2d	2008-07-17 12:53:50 -0400	[diff] [blame]	1106	struct btrfs_ordered_extent *ordered;
Josef Bacik	2ac55d4	2010-02-03 19:33:23 +0000	[diff] [blame]	1107	lock_extent_bits(&BTRFS_I(inode)->io_tree,
				1108	start_pos, last_pos - 1, 0, &cached_state,
				1109	GFP_NOFS);
Chris Mason	d397712	2009-01-05 21:25:51 -0500	[diff] [blame]	1110	ordered = btrfs_lookup_first_ordered_extent(inode,
				1111	last_pos - 1);
Chris Mason	e6dcd2d	2008-07-17 12:53:50 -0400	[diff] [blame]	1112	if (ordered &&
				1113	ordered->file_offset + ordered->len > start_pos &&
				1114	ordered->file_offset < last_pos) {
				1115	btrfs_put_ordered_extent(ordered);
Josef Bacik	2ac55d4	2010-02-03 19:33:23 +0000	[diff] [blame]	1116	unlock_extent_cached(&BTRFS_I(inode)->io_tree,
				1117	start_pos, last_pos - 1,
				1118	&cached_state, GFP_NOFS);
Chris Mason	e6dcd2d	2008-07-17 12:53:50 -0400	[diff] [blame]	1119	for (i = 0; i < num_pages; i++) {
				1120	unlock_page(pages[i]);
				1121	page_cache_release(pages[i]);
				1122	}
				1123	btrfs_wait_ordered_range(inode, start_pos,
				1124	last_pos - start_pos);
				1125	goto again;
				1126	}
				1127	if (ordered)
				1128	btrfs_put_ordered_extent(ordered);
				1129
Josef Bacik	2ac55d4	2010-02-03 19:33:23 +0000	[diff] [blame]	1130	clear_extent_bit(&BTRFS_I(inode)->io_tree, start_pos,
Josef Bacik	32c00af	2009-10-08 13:34:05 -0400	[diff] [blame]	1131	last_pos - 1, EXTENT_DIRTY \| EXTENT_DELALLOC \|
Josef Bacik	2ac55d4	2010-02-03 19:33:23 +0000	[diff] [blame]	1132	EXTENT_DO_ACCOUNTING, 0, 0, &cached_state,
Chris Mason	0762704	2008-02-19 11:29:24 -0500	[diff] [blame]	1133	GFP_NOFS);
Josef Bacik	2ac55d4	2010-02-03 19:33:23 +0000	[diff] [blame]	1134	unlock_extent_cached(&BTRFS_I(inode)->io_tree,
				1135	start_pos, last_pos - 1, &cached_state,
				1136	GFP_NOFS);
Chris Mason	0762704	2008-02-19 11:29:24 -0500	[diff] [blame]	1137	}
Chris Mason	e6dcd2d	2008-07-17 12:53:50 -0400	[diff] [blame]	1138	for (i = 0; i < num_pages; i++) {
Chris Mason	f87f057	2008-08-01 11:27:23 -0400	[diff] [blame]	1139	clear_page_dirty_for_io(pages[i]);
Chris Mason	e6dcd2d	2008-07-17 12:53:50 -0400	[diff] [blame]	1140	set_page_extent_mapped(pages[i]);
				1141	WARN_ON(!PageLocked(pages[i]));
				1142	}
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1143	return 0;
Chris Mason	b1bf862	2011-02-28 09:52:08 -0500	[diff] [blame]	1144	fail:
				1145	while (faili >= 0) {
				1146	unlock_page(pages[faili]);
				1147	page_cache_release(pages[faili]);
				1148	faili--;
				1149	}
				1150	return err;
				1151
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1152	}
				1153
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1154	static noinline ssize_t __btrfs_buffered_write(struct file *file,
				1155	struct iov_iter *i,
				1156	loff_t pos)
Josef Bacik	4b46fce	2010-05-23 11:00:55 -0400	[diff] [blame]	1157	{
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	1158	struct inode *inode = fdentry(file)->d_inode;
				1159	struct btrfs_root *root = BTRFS_I(inode)->root;
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	1160	struct page **pages = NULL;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1161	unsigned long first_index;
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1162	size_t num_written = 0;
				1163	int nrptrs;
Tsutomu Itoh	c914923	2011-03-30 00:57:23 +0000	[diff] [blame]	1164	int ret = 0;
Chris Mason	cb843a6	2008-10-03 12:30:02 -0400	[diff] [blame]	1165
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1166	nrptrs = min((iov_iter_count(i) + PAGE_CACHE_SIZE - 1) /
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	1167	PAGE_CACHE_SIZE, PAGE_CACHE_SIZE /
				1168	(sizeof(struct page *)));
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	1169	pages = kmalloc(nrptrs * sizeof(struct page *), GFP_KERNEL);
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1170	if (!pages)
				1171	return -ENOMEM;
Chris Mason	ab93dbe	2009-10-01 12:29:10 -0400	[diff] [blame]	1172
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1173	first_index = pos >> PAGE_CACHE_SHIFT;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1174
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1175	while (iov_iter_count(i) > 0) {
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1176	size_t offset = pos & (PAGE_CACHE_SIZE - 1);
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1177	size_t write_bytes = min(iov_iter_count(i),
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	1178	nrptrs * (size_t)PAGE_CACHE_SIZE -
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	1179	offset);
Yan, Zheng	3a90983	2011-01-18 13:34:40 +0800	[diff] [blame]	1180	size_t num_pages = (write_bytes + offset +
				1181	PAGE_CACHE_SIZE - 1) >> PAGE_CACHE_SHIFT;
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1182	size_t dirty_pages;
				1183	size_t copied;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1184
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	1185	WARN_ON(num_pages > nrptrs);
Chris Mason	1832a6d	2007-12-21 16:27:21 -0500	[diff] [blame]	1186
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1187	/*
				1188	* Fault pages before locking them in prepare_pages
				1189	* to avoid recursive lock
				1190	*/
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1191	if (unlikely(iov_iter_fault_in_readable(i, write_bytes))) {
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1192	ret = -EFAULT;
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1193	break;
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1194	}
				1195
				1196	ret = btrfs_delalloc_reserve_space(inode,
				1197	num_pages << PAGE_CACHE_SHIFT);
Chris Mason	1832a6d	2007-12-21 16:27:21 -0500	[diff] [blame]	1198	if (ret)
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1199	break;
Chris Mason	1832a6d	2007-12-21 16:27:21 -0500	[diff] [blame]	1200
Josef Bacik	4a64001	2011-01-25 15:10:08 -0500	[diff] [blame]	1201	/*
				1202	* This is going to setup the pages array with the number of
				1203	* pages we want, so we don't really need to worry about the
				1204	* contents of pages from loop to loop
				1205	*/
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1206	ret = prepare_pages(root, file, pages, num_pages,
Mitch Harder	341d14f	2011-07-12 19:43:45 +0000	[diff] [blame]	1207	pos, first_index, write_bytes);
Josef Bacik	6a63209	2009-02-20 11:00:09 -0500	[diff] [blame]	1208	if (ret) {
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1209	btrfs_delalloc_release_space(inode,
				1210	num_pages << PAGE_CACHE_SHIFT);
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1211	break;
Josef Bacik	6a63209	2009-02-20 11:00:09 -0500	[diff] [blame]	1212	}
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1213
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1214	copied = btrfs_copy_from_user(pos, num_pages,
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1215	write_bytes, pages, i);
Chris Mason	b1bf862	2011-02-28 09:52:08 -0500	[diff] [blame]	1216
				1217	/*
				1218	* if we have trouble faulting in the pages, fall
				1219	* back to one page at a time
				1220	*/
				1221	if (copied < write_bytes)
				1222	nrptrs = 1;
				1223
				1224	if (copied == 0)
				1225	dirty_pages = 0;
				1226	else
				1227	dirty_pages = (copied + offset +
				1228	PAGE_CACHE_SIZE - 1) >>
				1229	PAGE_CACHE_SHIFT;
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1230
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1231	/*
				1232	* If we had a short copy we need to release the excess delaloc
				1233	* bytes we reserved. We need to increment outstanding_extents
				1234	* because btrfs_delalloc_release_space will decrement it, but
				1235	* we still have an outstanding extent for the chunk we actually
				1236	* managed to copy.
				1237	*/
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1238	if (num_pages > dirty_pages) {
Josef Bacik	9e0baf6	2011-07-15 15:16:44 +0000	[diff] [blame]	1239	if (copied > 0) {
				1240	spin_lock(&BTRFS_I(inode)->lock);
				1241	BTRFS_I(inode)->outstanding_extents++;
				1242	spin_unlock(&BTRFS_I(inode)->lock);
				1243	}
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1244	btrfs_delalloc_release_space(inode,
				1245	(num_pages - dirty_pages) <<
				1246	PAGE_CACHE_SHIFT);
				1247	}
				1248
				1249	if (copied > 0) {
Josef Bacik	be1a12a	2011-04-06 13:05:22 -0400	[diff] [blame]	1250	ret = btrfs_dirty_pages(root, inode, pages,
				1251	dirty_pages, pos, copied,
				1252	NULL);
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1253	if (ret) {
				1254	btrfs_delalloc_release_space(inode,
				1255	dirty_pages << PAGE_CACHE_SHIFT);
				1256	btrfs_drop_pages(pages, num_pages);
				1257	break;
				1258	}
Chris Mason	54aa1f4	2007-06-22 14:16:25 -0400	[diff] [blame]	1259	}
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1260
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1261	btrfs_drop_pages(pages, num_pages);
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1262
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1263	cond_resched();
				1264
				1265	balance_dirty_pages_ratelimited_nr(inode->i_mapping,
				1266	dirty_pages);
				1267	if (dirty_pages < (root->leafsize >> PAGE_CACHE_SHIFT) + 1)
				1268	btrfs_btree_balance_dirty(root, 1);
				1269	btrfs_throttle(root);
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1270
Xin Zhong	914ee29	2010-12-09 09:30:14 +0000	[diff] [blame]	1271	pos += copied;
				1272	num_written += copied;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1273	}
Chris Mason	5b92ee7	2008-01-03 13:46:11 -0500	[diff] [blame]	1274
Chris Mason	8c2383c	2007-06-18 09:57:58 -0400	[diff] [blame]	1275	kfree(pages);
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1276
				1277	return num_written ? num_written : ret;
				1278	}
				1279
				1280	static ssize_t __btrfs_direct_write(struct kiocb *iocb,
				1281	const struct iovec *iov,
				1282	unsigned long nr_segs, loff_t pos,
				1283	loff_t *ppos, size_t count, size_t ocount)
				1284	{
				1285	struct file *file = iocb->ki_filp;
				1286	struct inode *inode = fdentry(file)->d_inode;
				1287	struct iov_iter i;
				1288	ssize_t written;
				1289	ssize_t written_buffered;
				1290	loff_t endbyte;
				1291	int err;
				1292
				1293	written = generic_file_direct_write(iocb, iov, &nr_segs, pos, ppos,
				1294	count, ocount);
				1295
				1296	/*
				1297	* the generic O_DIRECT will update in-memory i_size after the
				1298	* DIOs are done. But our endio handlers that update the on
				1299	* disk i_size never update past the in memory i_size. So we
				1300	* need one more update here to catch any additions to the
				1301	* file
				1302	*/
				1303	if (inode->i_size != BTRFS_I(inode)->disk_i_size) {
				1304	btrfs_ordered_update_i_size(inode, inode->i_size, NULL);
				1305	mark_inode_dirty(inode);
				1306	}
				1307
				1308	if (written < 0 \|\| written == count)
				1309	return written;
				1310
				1311	pos += written;
				1312	count -= written;
				1313	iov_iter_init(&i, iov, nr_segs, count, written);
				1314	written_buffered = __btrfs_buffered_write(file, &i, pos);
				1315	if (written_buffered < 0) {
				1316	err = written_buffered;
				1317	goto out;
				1318	}
				1319	endbyte = pos + written_buffered - 1;
				1320	err = filemap_write_and_wait_range(file->f_mapping, pos, endbyte);
				1321	if (err)
				1322	goto out;
				1323	written += written_buffered;
				1324	*ppos = pos + written_buffered;
				1325	invalidate_mapping_pages(file->f_mapping, pos >> PAGE_CACHE_SHIFT,
				1326	endbyte >> PAGE_CACHE_SHIFT);
				1327	out:
				1328	return written ? written : err;
				1329	}
				1330
				1331	static ssize_t btrfs_file_aio_write(struct kiocb *iocb,
				1332	const struct iovec *iov,
				1333	unsigned long nr_segs, loff_t pos)
				1334	{
				1335	struct file *file = iocb->ki_filp;
				1336	struct inode *inode = fdentry(file)->d_inode;
				1337	struct btrfs_root *root = BTRFS_I(inode)->root;
				1338	loff_t *ppos = &iocb->ki_pos;
				1339	ssize_t num_written = 0;
				1340	ssize_t err = 0;
				1341	size_t count, ocount;
				1342
				1343	vfs_check_frozen(inode->i_sb, SB_FREEZE_WRITE);
				1344
				1345	mutex_lock(&inode->i_mutex);
				1346
				1347	err = generic_segment_checks(iov, &nr_segs, &ocount, VERIFY_READ);
				1348	if (err) {
				1349	mutex_unlock(&inode->i_mutex);
				1350	goto out;
				1351	}
				1352	count = ocount;
				1353
				1354	current->backing_dev_info = inode->i_mapping->backing_dev_info;
				1355	err = generic_write_checks(file, &pos, &count, S_ISBLK(inode->i_mode));
				1356	if (err) {
				1357	mutex_unlock(&inode->i_mutex);
				1358	goto out;
				1359	}
				1360
				1361	if (count == 0) {
				1362	mutex_unlock(&inode->i_mutex);
				1363	goto out;
				1364	}
				1365
				1366	err = file_remove_suid(file);
				1367	if (err) {
				1368	mutex_unlock(&inode->i_mutex);
				1369	goto out;
				1370	}
				1371
				1372	/*
				1373	* If BTRFS flips readonly due to some impossible error
				1374	* (fs_info->fs_state now has BTRFS_SUPER_FLAG_ERROR),
				1375	* although we have opened a file as writable, we have
				1376	* to stop this write operation to ensure FS consistency.
				1377	*/
				1378	if (root->fs_info->fs_state & BTRFS_SUPER_FLAG_ERROR) {
				1379	mutex_unlock(&inode->i_mutex);
				1380	err = -EROFS;
				1381	goto out;
				1382	}
				1383
				1384	file_update_time(file);
				1385	BTRFS_I(inode)->sequence++;
				1386
				1387	if (unlikely(file->f_flags & O_DIRECT)) {
				1388	num_written = __btrfs_direct_write(iocb, iov, nr_segs,
				1389	pos, ppos, count, ocount);
				1390	} else {
				1391	struct iov_iter i;
				1392
				1393	iov_iter_init(&i, iov, nr_segs, count, num_written);
				1394
				1395	num_written = __btrfs_buffered_write(file, &i, pos);
				1396	if (num_written > 0)
				1397	*ppos = pos + num_written;
				1398	}
				1399
				1400	mutex_unlock(&inode->i_mutex);
Chris Mason	2ff3e9b	2007-10-29 14:36:41 -0400	[diff] [blame]	1401
Chris Mason	5a3f23d	2009-03-31 13:27:11 -0400	[diff] [blame]	1402	/*
				1403	* we want to make sure fsync finds this change
				1404	* but we haven't joined a transaction running right now.
				1405	*
				1406	* Later on, someone is sure to update the inode and get the
				1407	* real transid recorded.
				1408	*
				1409	* We set last_trans now to the fs_info generation + 1,
				1410	* this will either be one more than the running transaction
				1411	* or the generation used for the next transaction if there isn't
				1412	* one running right now.
				1413	*/
				1414	BTRFS_I(inode)->last_trans = root->fs_info->generation + 1;
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1415	if (num_written > 0 \|\| num_written == -EIOCBQUEUED) {
				1416	err = generic_write_sync(file, pos, num_written);
				1417	if (err < 0 && num_written > 0)
Chris Mason	2ff3e9b	2007-10-29 14:36:41 -0400	[diff] [blame]	1418	num_written = err;
				1419	}
Josef Bacik	d0215f3	2011-01-25 14:57:24 -0500	[diff] [blame]	1420	out:
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1421	current->backing_dev_info = NULL;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1422	return num_written ? num_written : err;
				1423	}
				1424
Chris Mason	d397712	2009-01-05 21:25:51 -0500	[diff] [blame]	1425	int btrfs_release_file(struct inode inode, struct file filp)
Mingming	e1b81e6	2008-05-27 10:55:43 -0400	[diff] [blame]	1426	{
Chris Mason	5a3f23d	2009-03-31 13:27:11 -0400	[diff] [blame]	1427	/*
				1428	* ordered_data_close is set by settattr when we are about to truncate
				1429	* a file from a non-zero size to a zero size. This tries to
				1430	* flush down new bytes that may have been written if the
				1431	* application were using truncate to replace a file in place.
				1432	*/
				1433	if (BTRFS_I(inode)->ordered_data_close) {
				1434	BTRFS_I(inode)->ordered_data_close = 0;
				1435	btrfs_add_ordered_operation(NULL, BTRFS_I(inode)->root, inode);
				1436	if (inode->i_size > BTRFS_ORDERED_OPERATIONS_FLUSH_LIMIT)
				1437	filemap_flush(inode->i_mapping);
				1438	}
Sage Weil	6bf13c0	2008-06-10 10:07:39 -0400	[diff] [blame]	1439	if (filp->private_data)
				1440	btrfs_ioctl_trans_end(filp);
Mingming	e1b81e6	2008-05-27 10:55:43 -0400	[diff] [blame]	1441	return 0;
				1442	}
				1443
Chris Mason	d352ac6	2008-09-29 15:18:18 -0400	[diff] [blame]	1444	/*
				1445	* fsync call for both files and directories. This logs the inode into
				1446	* the tree log instead of forcing full commits whenever possible.
				1447	*
				1448	* It needs to call filemap_fdatawait so that all ordered extent updates are
				1449	* in the metadata btree are up to date for copying to the log.
				1450	*
				1451	* It drops the inode mutex before doing the tree log commit. This is an
				1452	* important optimization for directories because holding the mutex prevents
				1453	* new operations on the dir while we write to disk.
				1454	*/
Josef Bacik	02c24a8	2011-07-16 20:44:56 -0400	[diff] [blame]	1455	int btrfs_sync_file(struct file *file, loff_t start, loff_t end, int datasync)
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1456	{
Christoph Hellwig	7ea8085	2010-05-26 17:53:25 +0200	[diff] [blame]	1457	struct dentry *dentry = file->f_path.dentry;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1458	struct inode *inode = dentry->d_inode;
				1459	struct btrfs_root *root = BTRFS_I(inode)->root;
Josef Bacik	15ee9bc	2007-08-10 16:22:09 -0400	[diff] [blame]	1460	int ret = 0;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1461	struct btrfs_trans_handle *trans;
				1462
liubo	1abe9b8	2011-03-24 11:18:59 +0000	[diff] [blame]	1463	trace_btrfs_sync_file(file, datasync);
Chris Mason	257c62e	2009-10-13 13:21:08 -0400	[diff] [blame]	1464
Josef Bacik	02c24a8	2011-07-16 20:44:56 -0400	[diff] [blame]	1465	ret = filemap_write_and_wait_range(inode->i_mapping, start, end);
				1466	if (ret)
				1467	return ret;
				1468	mutex_lock(&inode->i_mutex);
				1469
Chris Mason	257c62e	2009-10-13 13:21:08 -0400	[diff] [blame]	1470	/* we wait first, since the writeback may change the inode */
				1471	root->log_batch++;
Chris Mason	257c62e	2009-10-13 13:21:08 -0400	[diff] [blame]	1472	btrfs_wait_ordered_range(inode, 0, (u64)-1);
				1473	root->log_batch++;
				1474
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1475	/*
Josef Bacik	15ee9bc	2007-08-10 16:22:09 -0400	[diff] [blame]	1476	* check the transaction that last modified this inode
				1477	* and see if its already been committed
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1478	*/
Josef Bacik	02c24a8	2011-07-16 20:44:56 -0400	[diff] [blame]	1479	if (!BTRFS_I(inode)->last_trans) {
				1480	mutex_unlock(&inode->i_mutex);
Josef Bacik	15ee9bc	2007-08-10 16:22:09 -0400	[diff] [blame]	1481	goto out;
Josef Bacik	02c24a8	2011-07-16 20:44:56 -0400	[diff] [blame]	1482	}
Chris Mason	a213501	2008-06-25 16:01:30 -0400	[diff] [blame]	1483
Chris Mason	257c62e	2009-10-13 13:21:08 -0400	[diff] [blame]	1484	/*
				1485	* if the last transaction that changed this file was before
				1486	* the current transaction, we can bail out now without any
				1487	* syncing
				1488	*/
Josef Bacik	a4abeea	2011-04-11 17:25:13 -0400	[diff] [blame]	1489	smp_mb();
Josef Bacik	15ee9bc	2007-08-10 16:22:09 -0400	[diff] [blame]	1490	if (BTRFS_I(inode)->last_trans <=
				1491	root->fs_info->last_trans_committed) {
				1492	BTRFS_I(inode)->last_trans = 0;
Josef Bacik	02c24a8	2011-07-16 20:44:56 -0400	[diff] [blame]	1493	mutex_unlock(&inode->i_mutex);
Josef Bacik	15ee9bc	2007-08-10 16:22:09 -0400	[diff] [blame]	1494	goto out;
				1495	}
Josef Bacik	15ee9bc	2007-08-10 16:22:09 -0400	[diff] [blame]	1496
				1497	/*
Chris Mason	a52d9a8	2007-08-27 16:49:44 -0400	[diff] [blame]	1498	* ok we haven't committed the transaction yet, lets do a commit
				1499	*/
Dan Carpenter	6f902af	2010-05-29 09:49:07 +0000	[diff] [blame]	1500	if (file->private_data)
Sage Weil	6bf13c0	2008-06-10 10:07:39 -0400	[diff] [blame]	1501	btrfs_ioctl_trans_end(file);
				1502
Yan, Zheng	a22285a	2010-05-16 10:48:46 -0400	[diff] [blame]	1503	trans = btrfs_start_transaction(root, 0);
				1504	if (IS_ERR(trans)) {
				1505	ret = PTR_ERR(trans);
Josef Bacik	02c24a8	2011-07-16 20:44:56 -0400	[diff] [blame]	1506	mutex_unlock(&inode->i_mutex);
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1507	goto out;
				1508	}
Chris Mason	e02119d	2008-09-05 16:13:11 -0400	[diff] [blame]	1509
Chris Mason	2cfbd50	2009-02-20 10:55:10 -0500	[diff] [blame]	1510	ret = btrfs_log_dentry_safe(trans, root, dentry);
Josef Bacik	02c24a8	2011-07-16 20:44:56 -0400	[diff] [blame]	1511	if (ret < 0) {
				1512	mutex_unlock(&inode->i_mutex);
Chris Mason	e02119d	2008-09-05 16:13:11 -0400	[diff] [blame]	1513	goto out;
Josef Bacik	02c24a8	2011-07-16 20:44:56 -0400	[diff] [blame]	1514	}
Chris Mason	49eb7e4	2008-09-11 15:53:12 -0400	[diff] [blame]	1515
				1516	/* we've logged all the items and now have a consistent
				1517	* version of the file in the log. It is possible that
				1518	* someone will come in and modify the file, but that's
				1519	* fine because the log is consistent on disk, and we
				1520	* have references to all of the file's extents
				1521	*
				1522	* It is possible that someone will come in and log the
				1523	* file again, but that will end up using the synchronization
				1524	* inside btrfs_sync_log to keep things safe.
				1525	*/
Josef Bacik	02c24a8	2011-07-16 20:44:56 -0400	[diff] [blame]	1526	mutex_unlock(&inode->i_mutex);
Chris Mason	49eb7e4	2008-09-11 15:53:12 -0400	[diff] [blame]	1527
Chris Mason	257c62e	2009-10-13 13:21:08 -0400	[diff] [blame]	1528	if (ret != BTRFS_NO_LOG_SYNC) {
				1529	if (ret > 0) {
Chris Mason	12fcfd2	2009-03-24 10:24:20 -0400	[diff] [blame]	1530	ret = btrfs_commit_transaction(trans, root);
Chris Mason	257c62e	2009-10-13 13:21:08 -0400	[diff] [blame]	1531	} else {
				1532	ret = btrfs_sync_log(trans, root);
				1533	if (ret == 0)
				1534	ret = btrfs_end_transaction(trans, root);
				1535	else
				1536	ret = btrfs_commit_transaction(trans, root);
				1537	}
				1538	} else {
				1539	ret = btrfs_end_transaction(trans, root);
Chris Mason	e02119d	2008-09-05 16:13:11 -0400	[diff] [blame]	1540	}
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1541	out:
Roel Kluin	014e4ac	2010-01-29 10:42:11 +0000	[diff] [blame]	1542	return ret > 0 ? -EIO : ret;
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1543	}
				1544
Alexey Dobriyan	f0f37e2	2009-09-27 22:29:37 +0400	[diff] [blame]	1545	static const struct vm_operations_struct btrfs_file_vm_ops = {
Chris Mason	92fee66	2007-07-25 12:31:35 -0400	[diff] [blame]	1546	.fault = filemap_fault,
Chris Mason	9ebefb18	2007-06-15 13:50:00 -0400	[diff] [blame]	1547	.page_mkwrite = btrfs_page_mkwrite,
				1548	};
				1549
				1550	static int btrfs_file_mmap(struct file filp, struct vm_area_struct vma)
				1551	{
Miao Xie	058a457	2010-05-20 07:21:50 +0000	[diff] [blame]	1552	struct address_space *mapping = filp->f_mapping;
				1553
				1554	if (!mapping->a_ops->readpage)
				1555	return -ENOEXEC;
				1556
Chris Mason	9ebefb18	2007-06-15 13:50:00 -0400	[diff] [blame]	1557	file_accessed(filp);
Miao Xie	058a457	2010-05-20 07:21:50 +0000	[diff] [blame]	1558	vma->vm_ops = &btrfs_file_vm_ops;
				1559	vma->vm_flags \|= VM_CAN_NONLINEAR;
				1560
Chris Mason	9ebefb18	2007-06-15 13:50:00 -0400	[diff] [blame]	1561	return 0;
				1562	}
				1563
Christoph Hellwig	2fe17c1	2011-01-14 13:07:43 +0100	[diff] [blame]	1564	static long btrfs_fallocate(struct file *file, int mode,
				1565	loff_t offset, loff_t len)
				1566	{
				1567	struct inode *inode = file->f_path.dentry->d_inode;
				1568	struct extent_state *cached_state = NULL;
				1569	u64 cur_offset;
				1570	u64 last_byte;
				1571	u64 alloc_start;
				1572	u64 alloc_end;
				1573	u64 alloc_hint = 0;
				1574	u64 locked_end;
				1575	u64 mask = BTRFS_I(inode)->root->sectorsize - 1;
				1576	struct extent_map *em;
				1577	int ret;
				1578
				1579	alloc_start = offset & ~mask;
				1580	alloc_end = (offset + len + mask) & ~mask;
				1581
				1582	/* We only support the FALLOC_FL_KEEP_SIZE mode */
				1583	if (mode & ~FALLOC_FL_KEEP_SIZE)
				1584	return -EOPNOTSUPP;
				1585
				1586	/*
				1587	* wait for ordered IO before we have any locks. We'll loop again
				1588	* below with the locks held.
				1589	*/
				1590	btrfs_wait_ordered_range(inode, alloc_start, alloc_end - alloc_start);
				1591
				1592	mutex_lock(&inode->i_mutex);
				1593	ret = inode_newsize_ok(inode, alloc_end);
				1594	if (ret)
				1595	goto out;
				1596
				1597	if (alloc_start > inode->i_size) {
Josef Bacik	a41ad39	2011-01-31 15:30:16 -0500	[diff] [blame]	1598	ret = btrfs_cont_expand(inode, i_size_read(inode),
				1599	alloc_start);
Christoph Hellwig	2fe17c1	2011-01-14 13:07:43 +0100	[diff] [blame]	1600	if (ret)
				1601	goto out;
				1602	}
				1603
				1604	ret = btrfs_check_data_free_space(inode, alloc_end - alloc_start);
				1605	if (ret)
				1606	goto out;
				1607
				1608	locked_end = alloc_end - 1;
				1609	while (1) {
				1610	struct btrfs_ordered_extent *ordered;
				1611
				1612	/* the extent lock is ordered inside the running
				1613	* transaction
				1614	*/
				1615	lock_extent_bits(&BTRFS_I(inode)->io_tree, alloc_start,
				1616	locked_end, 0, &cached_state, GFP_NOFS);
				1617	ordered = btrfs_lookup_first_ordered_extent(inode,
				1618	alloc_end - 1);
				1619	if (ordered &&
				1620	ordered->file_offset + ordered->len > alloc_start &&
				1621	ordered->file_offset < alloc_end) {
				1622	btrfs_put_ordered_extent(ordered);
				1623	unlock_extent_cached(&BTRFS_I(inode)->io_tree,
				1624	alloc_start, locked_end,
				1625	&cached_state, GFP_NOFS);
				1626	/*
				1627	* we can't wait on the range with the transaction
				1628	* running or with the extent lock held
				1629	*/
				1630	btrfs_wait_ordered_range(inode, alloc_start,
				1631	alloc_end - alloc_start);
				1632	} else {
				1633	if (ordered)
				1634	btrfs_put_ordered_extent(ordered);
				1635	break;
				1636	}
				1637	}
				1638
				1639	cur_offset = alloc_start;
				1640	while (1) {
				1641	em = btrfs_get_extent(inode, NULL, 0, cur_offset,
				1642	alloc_end - cur_offset, 0);
David Sterba	c704005	2011-04-19 18:00:01 +0200	[diff] [blame]	1643	BUG_ON(IS_ERR_OR_NULL(em));
Christoph Hellwig	2fe17c1	2011-01-14 13:07:43 +0100	[diff] [blame]	1644	last_byte = min(extent_map_end(em), alloc_end);
				1645	last_byte = (last_byte + mask) & ~mask;
				1646	if (em->block_start == EXTENT_MAP_HOLE \|\|
				1647	(cur_offset >= inode->i_size &&
				1648	!test_bit(EXTENT_FLAG_PREALLOC, &em->flags))) {
				1649	ret = btrfs_prealloc_file_range(inode, mode, cur_offset,
				1650	last_byte - cur_offset,
				1651	1 << inode->i_blkbits,
				1652	offset + len,
				1653	&alloc_hint);
				1654	if (ret < 0) {
				1655	free_extent_map(em);
				1656	break;
				1657	}
				1658	}
				1659	free_extent_map(em);
				1660
				1661	cur_offset = last_byte;
				1662	if (cur_offset >= alloc_end) {
				1663	ret = 0;
				1664	break;
				1665	}
				1666	}
				1667	unlock_extent_cached(&BTRFS_I(inode)->io_tree, alloc_start, locked_end,
				1668	&cached_state, GFP_NOFS);
				1669
				1670	btrfs_free_reserved_data_space(inode, alloc_end - alloc_start);
				1671	out:
				1672	mutex_unlock(&inode->i_mutex);
				1673	return ret;
				1674	}
				1675
Josef Bacik	b267515	2011-07-18 13:21:36 -0400	[diff] [blame]	1676	static int find_desired_extent(struct inode inode, loff_t offset, int origin)
				1677	{
				1678	struct btrfs_root *root = BTRFS_I(inode)->root;
				1679	struct extent_map *em;
				1680	struct extent_state *cached_state = NULL;
				1681	u64 lockstart = *offset;
				1682	u64 lockend = i_size_read(inode);
				1683	u64 start = *offset;
				1684	u64 orig_start = *offset;
				1685	u64 len = i_size_read(inode);
				1686	u64 last_end = 0;
				1687	int ret = 0;
				1688
				1689	lockend = max_t(u64, root->sectorsize, lockend);
				1690	if (lockend <= lockstart)
				1691	lockend = lockstart + root->sectorsize;
				1692
				1693	len = lockend - lockstart + 1;
				1694
				1695	len = max_t(u64, len, root->sectorsize);
				1696	if (inode->i_size == 0)
				1697	return -ENXIO;
				1698
				1699	lock_extent_bits(&BTRFS_I(inode)->io_tree, lockstart, lockend, 0,
				1700	&cached_state, GFP_NOFS);
				1701
				1702	/*
				1703	* Delalloc is such a pain. If we have a hole and we have pending
				1704	* delalloc for a portion of the hole we will get back a hole that
				1705	* exists for the entire range since it hasn't been actually written
				1706	* yet. So to take care of this case we need to look for an extent just
				1707	* before the position we want in case there is outstanding delalloc
				1708	* going on here.
				1709	*/
				1710	if (origin == SEEK_HOLE && start != 0) {
				1711	if (start <= root->sectorsize)
				1712	em = btrfs_get_extent_fiemap(inode, NULL, 0, 0,
				1713	root->sectorsize, 0);
				1714	else
				1715	em = btrfs_get_extent_fiemap(inode, NULL, 0,
				1716	start - root->sectorsize,
				1717	root->sectorsize, 0);
				1718	if (IS_ERR(em)) {
				1719	ret = -ENXIO;
				1720	goto out;
				1721	}
				1722	last_end = em->start + em->len;
				1723	if (em->block_start == EXTENT_MAP_DELALLOC)
				1724	last_end = min_t(u64, last_end, inode->i_size);
				1725	free_extent_map(em);
				1726	}
				1727
				1728	while (1) {
				1729	em = btrfs_get_extent_fiemap(inode, NULL, 0, start, len, 0);
				1730	if (IS_ERR(em)) {
				1731	ret = -ENXIO;
				1732	break;
				1733	}
				1734
				1735	if (em->block_start == EXTENT_MAP_HOLE) {
				1736	if (test_bit(EXTENT_FLAG_VACANCY, &em->flags)) {
				1737	if (last_end <= orig_start) {
				1738	free_extent_map(em);
				1739	ret = -ENXIO;
				1740	break;
				1741	}
				1742	}
				1743
				1744	if (origin == SEEK_HOLE) {
				1745	*offset = start;
				1746	free_extent_map(em);
				1747	break;
				1748	}
				1749	} else {
				1750	if (origin == SEEK_DATA) {
				1751	if (em->block_start == EXTENT_MAP_DELALLOC) {
				1752	if (start >= inode->i_size) {
				1753	free_extent_map(em);
				1754	ret = -ENXIO;
				1755	break;
				1756	}
				1757	}
				1758
				1759	*offset = start;
				1760	free_extent_map(em);
				1761	break;
				1762	}
				1763	}
				1764
				1765	start = em->start + em->len;
				1766	last_end = em->start + em->len;
				1767
				1768	if (em->block_start == EXTENT_MAP_DELALLOC)
				1769	last_end = min_t(u64, last_end, inode->i_size);
				1770
				1771	if (test_bit(EXTENT_FLAG_VACANCY, &em->flags)) {
				1772	free_extent_map(em);
				1773	ret = -ENXIO;
				1774	break;
				1775	}
				1776	free_extent_map(em);
				1777	cond_resched();
				1778	}
				1779	if (!ret)
				1780	offset = min(offset, inode->i_size);
				1781	out:
				1782	unlock_extent_cached(&BTRFS_I(inode)->io_tree, lockstart, lockend,
				1783	&cached_state, GFP_NOFS);
				1784	return ret;
				1785	}
				1786
				1787	static loff_t btrfs_file_llseek(struct file *file, loff_t offset, int origin)
				1788	{
				1789	struct inode *inode = file->f_mapping->host;
				1790	int ret;
				1791
				1792	mutex_lock(&inode->i_mutex);
				1793	switch (origin) {
				1794	case SEEK_END:
				1795	case SEEK_CUR:
				1796	offset = generic_file_llseek_unlocked(file, offset, origin);
				1797	goto out;
				1798	case SEEK_DATA:
				1799	case SEEK_HOLE:
				1800	ret = find_desired_extent(inode, &offset, origin);
				1801	if (ret) {
				1802	mutex_unlock(&inode->i_mutex);
				1803	return ret;
				1804	}
				1805	}
				1806
				1807	if (offset < 0 && !(file->f_mode & FMODE_UNSIGNED_OFFSET))
				1808	return -EINVAL;
				1809	if (offset > inode->i_sb->s_maxbytes)
				1810	return -EINVAL;
				1811
				1812	/* Special lock needed here? */
				1813	if (offset != file->f_pos) {
				1814	file->f_pos = offset;
				1815	file->f_version = 0;
				1816	}
				1817	out:
				1818	mutex_unlock(&inode->i_mutex);
				1819	return offset;
				1820	}
				1821
Alexey Dobriyan	828c095	2009-10-01 15:43:56 -0700	[diff] [blame]	1822	const struct file_operations btrfs_file_operations = {
Josef Bacik	b267515	2011-07-18 13:21:36 -0400	[diff] [blame]	1823	.llseek = btrfs_file_llseek,
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1824	.read = do_sync_read,
Miao Xie	4a001071	2010-06-07 03:38:51 +0000	[diff] [blame]	1825	.write = do_sync_write,
Chris Mason	9ebefb18	2007-06-15 13:50:00 -0400	[diff] [blame]	1826	.aio_read = generic_file_aio_read,
Chris Mason	e9906a9	2007-12-14 12:56:58 -0500	[diff] [blame]	1827	.splice_read = generic_file_splice_read,
Josef Bacik	11c65dc	2010-05-23 11:07:21 -0400	[diff] [blame]	1828	.aio_write = btrfs_file_aio_write,
Chris Mason	9ebefb18	2007-06-15 13:50:00 -0400	[diff] [blame]	1829	.mmap = btrfs_file_mmap,
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1830	.open = generic_file_open,
Mingming	e1b81e6	2008-05-27 10:55:43 -0400	[diff] [blame]	1831	.release = btrfs_release_file,
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1832	.fsync = btrfs_sync_file,
Christoph Hellwig	2fe17c1	2011-01-14 13:07:43 +0100	[diff] [blame]	1833	.fallocate = btrfs_fallocate,
Christoph Hellwig	34287aa	2007-09-14 10:22:47 -0400	[diff] [blame]	1834	.unlocked_ioctl = btrfs_ioctl,
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1835	#ifdef CONFIG_COMPAT
Christoph Hellwig	34287aa	2007-09-14 10:22:47 -0400	[diff] [blame]	1836	.compat_ioctl = btrfs_ioctl,
Chris Mason	39279cc	2007-06-12 06:35:45 -0400	[diff] [blame]	1837	#endif
				1838	};