Blame - fs/logfs/readwrite.c - kernel/msm-4.9

blob: e37cee3b100735bba386c3d47630824973cd0cd5 [file] [log] [blame]

Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	1	/*
				2	* fs/logfs/readwrite.c
				3	*
				4	* As should be obvious for Linux kernel code, license is GPLv2
				5	*
				6	* Copyright (c) 2005-2008 Joern Engel <joern@logfs.org>
				7	*
				8	*
				9	* Actually contains five sets of very similar functions:
				10	* read read blocks from a file
				11	* seek_hole find next hole
				12	* seek_data find next data block
				13	* valid check whether a block still belongs to a file
				14	* write write blocks to a file
				15	* delete delete a block (for directories and ifile)
				16	* rewrite move existing blocks of a file to a new location (gc helper)
				17	* truncate truncate a file
				18	*/
				19	#include "logfs.h"
				20	#include <linux/sched.h>
Tejun Heo	5a0e3ad	2010-03-24 17:04:11 +0900	[diff] [blame]	21	#include <linux/slab.h>
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	22
				23	static u64 adjust_bix(u64 bix, level_t level)
				24	{
				25	switch (level) {
				26	case 0:
				27	return bix;
				28	case LEVEL(1):
				29	return max_t(u64, bix, I0_BLOCKS);
				30	case LEVEL(2):
				31	return max_t(u64, bix, I1_BLOCKS);
				32	case LEVEL(3):
				33	return max_t(u64, bix, I2_BLOCKS);
				34	case LEVEL(4):
				35	return max_t(u64, bix, I3_BLOCKS);
				36	case LEVEL(5):
				37	return max_t(u64, bix, I4_BLOCKS);
				38	default:
				39	WARN_ON(1);
				40	return bix;
				41	}
				42	}
				43
				44	static inline u64 maxbix(u8 height)
				45	{
				46	return 1ULL << (LOGFS_BLOCK_BITS * height);
				47	}
				48
				49	/**
				50	* The inode address space is cut in two halves. Lower half belongs to data
				51	* pages, upper half to indirect blocks. If the high bit (INDIRECT_BIT) is
				52	* set, the actual block index (bix) and level can be derived from the page
				53	* index.
				54	*
				55	* The lowest three bits of the block index are set to 0 after packing and
				56	* unpacking. Since the lowest n bits (9 for 4KiB blocksize) are ignored
				57	* anyway this is harmless.
				58	*/
				59	#define ARCH_SHIFT (BITS_PER_LONG - 32)
				60	#define INDIRECT_BIT (0x80000000UL << ARCH_SHIFT)
				61	#define LEVEL_SHIFT (28 + ARCH_SHIFT)
				62	static inline pgoff_t first_indirect_block(void)
				63	{
				64	return INDIRECT_BIT \| (1ULL << LEVEL_SHIFT);
				65	}
				66
				67	pgoff_t logfs_pack_index(u64 bix, level_t level)
				68	{
				69	pgoff_t index;
				70
				71	BUG_ON(bix >= INDIRECT_BIT);
				72	if (level == 0)
				73	return bix;
				74
				75	index = INDIRECT_BIT;
				76	index \|= (__force long)level << LEVEL_SHIFT;
				77	index \|= bix >> ((__force u8)level * LOGFS_BLOCK_BITS);
				78	return index;
				79	}
				80
				81	void logfs_unpack_index(pgoff_t index, u64 bix, level_t level)
				82	{
				83	u8 __level;
				84
				85	if (!(index & INDIRECT_BIT)) {
				86	*bix = index;
				87	*level = 0;
				88	return;
				89	}
				90
				91	__level = (index & ~INDIRECT_BIT) >> LEVEL_SHIFT;
				92	*level = LEVEL(__level);
				93	bix = (index << (__level LOGFS_BLOCK_BITS)) & ~INDIRECT_BIT;
				94	bix = adjust_bix(bix, *level);
				95	return;
				96	}
				97	#undef ARCH_SHIFT
				98	#undef INDIRECT_BIT
				99	#undef LEVEL_SHIFT
				100
				101	/*
				102	* Time is stored as nanoseconds since the epoch.
				103	*/
				104	static struct timespec be64_to_timespec(__be64 betime)
				105	{
				106	return ns_to_timespec(be64_to_cpu(betime));
				107	}
				108
				109	static __be64 timespec_to_be64(struct timespec tsp)
				110	{
				111	return cpu_to_be64((u64)tsp.tv_sec * NSEC_PER_SEC + tsp.tv_nsec);
				112	}
				113
				114	static void logfs_disk_to_inode(struct logfs_disk_inode di, struct inodeinode)
				115	{
				116	struct logfs_inode *li = logfs_inode(inode);
				117	int i;
				118
				119	inode->i_mode = be16_to_cpu(di->di_mode);
				120	li->li_height = di->di_height;
				121	li->li_flags = be32_to_cpu(di->di_flags);
				122	inode->i_uid = be32_to_cpu(di->di_uid);
				123	inode->i_gid = be32_to_cpu(di->di_gid);
				124	inode->i_size = be64_to_cpu(di->di_size);
				125	logfs_set_blocks(inode, be64_to_cpu(di->di_used_bytes));
				126	inode->i_atime = be64_to_timespec(di->di_atime);
				127	inode->i_ctime = be64_to_timespec(di->di_ctime);
				128	inode->i_mtime = be64_to_timespec(di->di_mtime);
				129	inode->i_nlink = be32_to_cpu(di->di_refcount);
				130	inode->i_generation = be32_to_cpu(di->di_generation);
				131
				132	switch (inode->i_mode & S_IFMT) {
				133	case S_IFSOCK: /* fall through */
				134	case S_IFBLK: /* fall through */
				135	case S_IFCHR: /* fall through */
				136	case S_IFIFO:
				137	inode->i_rdev = be64_to_cpu(di->di_data[0]);
				138	break;
				139	case S_IFDIR: /* fall through */
				140	case S_IFREG: /* fall through */
				141	case S_IFLNK:
				142	for (i = 0; i < LOGFS_EMBEDDED_FIELDS; i++)
				143	li->li_data[i] = be64_to_cpu(di->di_data[i]);
				144	break;
				145	default:
				146	BUG();
				147	}
				148	}
				149
				150	static void logfs_inode_to_disk(struct inode inode, struct logfs_disk_inodedi)
				151	{
				152	struct logfs_inode *li = logfs_inode(inode);
				153	int i;
				154
				155	di->di_mode = cpu_to_be16(inode->i_mode);
				156	di->di_height = li->li_height;
				157	di->di_pad = 0;
				158	di->di_flags = cpu_to_be32(li->li_flags);
				159	di->di_uid = cpu_to_be32(inode->i_uid);
				160	di->di_gid = cpu_to_be32(inode->i_gid);
				161	di->di_size = cpu_to_be64(i_size_read(inode));
				162	di->di_used_bytes = cpu_to_be64(li->li_used_bytes);
				163	di->di_atime = timespec_to_be64(inode->i_atime);
				164	di->di_ctime = timespec_to_be64(inode->i_ctime);
				165	di->di_mtime = timespec_to_be64(inode->i_mtime);
				166	di->di_refcount = cpu_to_be32(inode->i_nlink);
				167	di->di_generation = cpu_to_be32(inode->i_generation);
				168
				169	switch (inode->i_mode & S_IFMT) {
				170	case S_IFSOCK: /* fall through */
				171	case S_IFBLK: /* fall through */
				172	case S_IFCHR: /* fall through */
				173	case S_IFIFO:
				174	di->di_data[0] = cpu_to_be64(inode->i_rdev);
				175	break;
				176	case S_IFDIR: /* fall through */
				177	case S_IFREG: /* fall through */
				178	case S_IFLNK:
				179	for (i = 0; i < LOGFS_EMBEDDED_FIELDS; i++)
				180	di->di_data[i] = cpu_to_be64(li->li_data[i]);
				181	break;
				182	default:
				183	BUG();
				184	}
				185	}
				186
				187	static void __logfs_set_blocks(struct inode *inode)
				188	{
				189	struct super_block *sb = inode->i_sb;
				190	struct logfs_inode *li = logfs_inode(inode);
				191
				192	inode->i_blocks = ULONG_MAX;
				193	if (li->li_used_bytes >> sb->s_blocksize_bits < ULONG_MAX)
				194	inode->i_blocks = ALIGN(li->li_used_bytes, 512) >> 9;
				195	}
				196
				197	void logfs_set_blocks(struct inode *inode, u64 bytes)
				198	{
				199	struct logfs_inode *li = logfs_inode(inode);
				200
				201	li->li_used_bytes = bytes;
				202	__logfs_set_blocks(inode);
				203	}
				204
				205	static void prelock_page(struct super_block sb, struct page page, int lock)
				206	{
				207	struct logfs_super *super = logfs_super(sb);
				208
				209	BUG_ON(!PageLocked(page));
				210	if (lock) {
				211	BUG_ON(PagePreLocked(page));
				212	SetPagePreLocked(page);
				213	} else {
				214	/* We are in GC path. */
				215	if (PagePreLocked(page))
				216	super->s_lock_count++;
				217	else
				218	SetPagePreLocked(page);
				219	}
				220	}
				221
				222	static void preunlock_page(struct super_block sb, struct page page, int lock)
				223	{
				224	struct logfs_super *super = logfs_super(sb);
				225
				226	BUG_ON(!PageLocked(page));
				227	if (lock)
				228	ClearPagePreLocked(page);
				229	else {
				230	/* We are in GC path. */
				231	BUG_ON(!PagePreLocked(page));
				232	if (super->s_lock_count)
				233	super->s_lock_count--;
				234	else
				235	ClearPagePreLocked(page);
				236	}
				237	}
				238
				239	/*
				240	* Logfs is prone to an AB-BA deadlock where one task tries to acquire
				241	* s_write_mutex with a locked page and GC tries to get that page while holding
				242	* s_write_mutex.
				243	* To solve this issue logfs will ignore the page lock iff the page in question
				244	* is waiting for s_write_mutex. We annotate this fact by setting PG_pre_locked
				245	* in addition to PG_locked.
				246	*/
				247	static void logfs_get_wblocks(struct super_block sb, struct page page,
				248	int lock)
				249	{
				250	struct logfs_super *super = logfs_super(sb);
				251
				252	if (page)
				253	prelock_page(sb, page, lock);
				254
				255	if (lock) {
				256	mutex_lock(&super->s_write_mutex);
				257	logfs_gc_pass(sb);
				258	/* FIXME: We also have to check for shadowed space
				259	* and mempool fill grade */
				260	}
				261	}
				262
				263	static void logfs_put_wblocks(struct super_block sb, struct page page,
				264	int lock)
				265	{
				266	struct logfs_super *super = logfs_super(sb);
				267
				268	if (page)
				269	preunlock_page(sb, page, lock);
				270	/* Order matters - we must clear PG_pre_locked before releasing
				271	* s_write_mutex or we could race against another task. */
				272	if (lock)
				273	mutex_unlock(&super->s_write_mutex);
				274	}
				275
				276	static struct page logfs_get_read_page(struct inode inode, u64 bix,
				277	level_t level)
				278	{
				279	return find_or_create_page(inode->i_mapping,
				280	logfs_pack_index(bix, level), GFP_NOFS);
				281	}
				282
				283	static void logfs_put_read_page(struct page *page)
				284	{
				285	unlock_page(page);
				286	page_cache_release(page);
				287	}
				288
				289	static void logfs_lock_write_page(struct page *page)
				290	{
				291	int loop = 0;
				292
				293	while (unlikely(!trylock_page(page))) {
				294	if (loop++ > 0x1000) {
				295	/* Has been observed once so far... */
				296	printk(KERN_ERR "stack at %p\n", &loop);
				297	BUG();
				298	}
				299	if (PagePreLocked(page)) {
				300	/* Holder of page lock is waiting for us, it
				301	* is safe to use this page. */
				302	break;
				303	}
				304	/* Some other process has this page locked and has
				305	* nothing to do with us. Wait for it to finish.
				306	*/
				307	schedule();
				308	}
				309	BUG_ON(!PageLocked(page));
				310	}
				311
				312	static struct page logfs_get_write_page(struct inode inode, u64 bix,
				313	level_t level)
				314	{
				315	struct address_space *mapping = inode->i_mapping;
				316	pgoff_t index = logfs_pack_index(bix, level);
				317	struct page *page;
				318	int err;
				319
				320	repeat:
				321	page = find_get_page(mapping, index);
				322	if (!page) {
				323	page = __page_cache_alloc(GFP_NOFS);
				324	if (!page)
				325	return NULL;
				326	err = add_to_page_cache_lru(page, mapping, index, GFP_NOFS);
				327	if (unlikely(err)) {
				328	page_cache_release(page);
				329	if (err == -EEXIST)
				330	goto repeat;
				331	return NULL;
				332	}
				333	} else logfs_lock_write_page(page);
				334	BUG_ON(!PageLocked(page));
				335	return page;
				336	}
				337
				338	static void logfs_unlock_write_page(struct page *page)
				339	{
				340	if (!PagePreLocked(page))
				341	unlock_page(page);
				342	}
				343
				344	static void logfs_put_write_page(struct page *page)
				345	{
				346	logfs_unlock_write_page(page);
				347	page_cache_release(page);
				348	}
				349
				350	static struct page logfs_get_page(struct inode inode, u64 bix, level_t level,
				351	int rw)
				352	{
				353	if (rw == READ)
				354	return logfs_get_read_page(inode, bix, level);
				355	else
				356	return logfs_get_write_page(inode, bix, level);
				357	}
				358
				359	static void logfs_put_page(struct page *page, int rw)
				360	{
				361	if (rw == READ)
				362	logfs_put_read_page(page);
				363	else
				364	logfs_put_write_page(page);
				365	}
				366
				367	static unsigned long __get_bits(u64 val, int skip, int no)
				368	{
				369	u64 ret = val;
				370
				371	ret >>= skip * no;
				372	ret <<= 64 - no;
				373	ret >>= 64 - no;
				374	return ret;
				375	}
				376
				377	static unsigned long get_bits(u64 val, level_t skip)
				378	{
				379	return __get_bits(val, (__force int)skip, LOGFS_BLOCK_BITS);
				380	}
				381
				382	static inline void init_shadow_tree(struct super_block *sb,
				383	struct shadow_tree *tree)
				384	{
				385	struct logfs_super *super = logfs_super(sb);
				386
				387	btree_init_mempool64(&tree->new, super->s_btree_pool);
				388	btree_init_mempool64(&tree->old, super->s_btree_pool);
				389	}
				390
				391	static void indirect_write_block(struct logfs_block *block)
				392	{
				393	struct page *page;
				394	struct inode *inode;
				395	int ret;
				396
				397	page = block->page;
				398	inode = page->mapping->host;
				399	logfs_lock_write_page(page);
				400	ret = logfs_write_buf(inode, page, 0);
				401	logfs_unlock_write_page(page);
				402	/*
				403	* This needs some rework. Unless you want your filesystem to run
				404	* completely synchronously (you don't), the filesystem will always
				405	* report writes as 'successful' before the actual work has been
				406	* done. The actual work gets done here and this is where any errors
				407	* will show up. And there isn't much we can do about it, really.
				408	*
				409	* Some attempts to fix the errors (move from bad blocks, retry io,...)
				410	* have already been done, so anything left should be either a broken
				411	* device or a bug somewhere in logfs itself. Being relatively new,
				412	* the odds currently favor a bug, so for now the line below isn't
				413	* entirely tasteles.
				414	*/
				415	BUG_ON(ret);
				416	}
				417
				418	static void inode_write_block(struct logfs_block *block)
				419	{
				420	struct inode *inode;
				421	int ret;
				422
				423	inode = block->inode;
				424	if (inode->i_ino == LOGFS_INO_MASTER)
Joern Engel	c6d3830	2010-03-04 21:36:19 +0100	[diff] [blame]	425	logfs_write_anchor(inode->i_sb);
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	426	else {
				427	ret = __logfs_write_inode(inode, 0);
				428	/* see indirect_write_block comment */
				429	BUG_ON(ret);
				430	}
				431	}
				432
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	433	/*
				434	* This silences a false, yet annoying gcc warning. I hate it when my editor
				435	* jumps into bitops.h each time I recompile this file.
				436	* TODO: Complain to gcc folks about this and upgrade compiler.
				437	*/
				438	static unsigned long fnb(const unsigned long *addr,
				439	unsigned long size, unsigned long offset)
				440	{
				441	return find_next_bit(addr, size, offset);
				442	}
				443
				444	static __be64 inode_val0(struct inode *inode)
				445	{
				446	struct logfs_inode *li = logfs_inode(inode);
				447	u64 val;
				448
				449	/*
				450	* Explicit shifting generates good code, but must match the format
				451	* of the structure. Add some paranoia just in case.
				452	*/
				453	BUILD_BUG_ON(offsetof(struct logfs_disk_inode, di_mode) != 0);
				454	BUILD_BUG_ON(offsetof(struct logfs_disk_inode, di_height) != 2);
				455	BUILD_BUG_ON(offsetof(struct logfs_disk_inode, di_flags) != 4);
				456
				457	val = (u64)inode->i_mode << 48 \|
				458	(u64)li->li_height << 40 \|
				459	(u64)li->li_flags;
				460	return cpu_to_be64(val);
				461	}
				462
				463	static int inode_write_alias(struct super_block *sb,
				464	struct logfs_block block, write_alias_t write_one_alias)
				465	{
				466	struct inode *inode = block->inode;
				467	struct logfs_inode *li = logfs_inode(inode);
				468	unsigned long pos;
				469	u64 ino , bix;
				470	__be64 val;
				471	level_t level;
				472	int err;
				473
				474	for (pos = 0; ; pos++) {
				475	pos = fnb(block->alias_map, LOGFS_BLOCK_FACTOR, pos);
				476	if (pos >= LOGFS_EMBEDDED_FIELDS + INODE_POINTER_OFS)
				477	return 0;
				478
				479	switch (pos) {
				480	case INODE_HEIGHT_OFS:
				481	val = inode_val0(inode);
				482	break;
				483	case INODE_USED_OFS:
				484	val = cpu_to_be64(li->li_used_bytes);;
				485	break;
				486	case INODE_SIZE_OFS:
				487	val = cpu_to_be64(i_size_read(inode));
				488	break;
				489	case INODE_POINTER_OFS ... INODE_POINTER_OFS + LOGFS_EMBEDDED_FIELDS - 1:
				490	val = cpu_to_be64(li->li_data[pos - INODE_POINTER_OFS]);
				491	break;
				492	default:
				493	BUG();
				494	}
				495
				496	ino = LOGFS_INO_MASTER;
				497	bix = inode->i_ino;
				498	level = LEVEL(0);
				499	err = write_one_alias(sb, ino, bix, level, pos, val);
				500	if (err)
				501	return err;
				502	}
				503	}
				504
				505	static int indirect_write_alias(struct super_block *sb,
				506	struct logfs_block block, write_alias_t write_one_alias)
				507	{
				508	unsigned long pos;
				509	struct page *page = block->page;
				510	u64 ino , bix;
				511	__be64 *child, val;
				512	level_t level;
				513	int err;
				514
				515	for (pos = 0; ; pos++) {
				516	pos = fnb(block->alias_map, LOGFS_BLOCK_FACTOR, pos);
				517	if (pos >= LOGFS_BLOCK_FACTOR)
				518	return 0;
				519
				520	ino = page->mapping->host->i_ino;
				521	logfs_unpack_index(page->index, &bix, &level);
				522	child = kmap_atomic(page, KM_USER0);
				523	val = child[pos];
				524	kunmap_atomic(child, KM_USER0);
				525	err = write_one_alias(sb, ino, bix, level, pos, val);
				526	if (err)
				527	return err;
				528	}
				529	}
				530
				531	int logfs_write_obj_aliases_pagecache(struct super_block *sb)
				532	{
				533	struct logfs_super *super = logfs_super(sb);
				534	struct logfs_block *block;
				535	int err;
				536
				537	list_for_each_entry(block, &super->s_object_alias, alias_list) {
				538	err = block->ops->write_alias(sb, block, write_alias_journal);
				539	if (err)
				540	return err;
				541	}
				542	return 0;
				543	}
				544
				545	void __free_block(struct super_block sb, struct logfs_block block)
				546	{
				547	BUG_ON(!list_empty(&block->item_list));
				548	list_del(&block->alias_list);
				549	mempool_free(block, logfs_super(sb)->s_block_pool);
				550	}
				551
				552	static void inode_free_block(struct super_block sb, struct logfs_block block)
				553	{
				554	struct inode *inode = block->inode;
				555
				556	logfs_inode(inode)->li_block = NULL;
				557	__free_block(sb, block);
				558	}
				559
				560	static void indirect_free_block(struct super_block *sb,
				561	struct logfs_block *block)
				562	{
				563	ClearPagePrivate(block->page);
				564	block->page->private = 0;
				565	__free_block(sb, block);
				566	}
				567
				568
				569	static struct logfs_block_ops inode_block_ops = {
				570	.write_block = inode_write_block,
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	571	.free_block = inode_free_block,
				572	.write_alias = inode_write_alias,
				573	};
				574
				575	struct logfs_block_ops indirect_block_ops = {
				576	.write_block = indirect_write_block,
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	577	.free_block = indirect_free_block,
				578	.write_alias = indirect_write_alias,
				579	};
				580
				581	struct logfs_block __alloc_block(struct super_block sb,
				582	u64 ino, u64 bix, level_t level)
				583	{
				584	struct logfs_super *super = logfs_super(sb);
				585	struct logfs_block *block;
				586
				587	block = mempool_alloc(super->s_block_pool, GFP_NOFS);
				588	memset(block, 0, sizeof(*block));
				589	INIT_LIST_HEAD(&block->alias_list);
				590	INIT_LIST_HEAD(&block->item_list);
				591	block->sb = sb;
				592	block->ino = ino;
				593	block->bix = bix;
				594	block->level = level;
				595	return block;
				596	}
				597
				598	static void alloc_inode_block(struct inode *inode)
				599	{
				600	struct logfs_inode *li = logfs_inode(inode);
				601	struct logfs_block *block;
				602
				603	if (li->li_block)
				604	return;
				605
				606	block = __alloc_block(inode->i_sb, LOGFS_INO_MASTER, inode->i_ino, 0);
				607	block->inode = inode;
				608	li->li_block = block;
				609	block->ops = &inode_block_ops;
				610	}
				611
				612	void initialize_block_counters(struct page page, struct logfs_block block,
				613	__be64 *array, int page_is_empty)
				614	{
				615	u64 ptr;
				616	int i, start;
				617
				618	block->partial = 0;
				619	block->full = 0;
				620	start = 0;
				621	if (page->index < first_indirect_block()) {
				622	/* Counters are pointless on level 0 */
				623	return;
				624	}
				625	if (page->index == first_indirect_block()) {
				626	/* Skip unused pointers */
				627	start = I0_BLOCKS;
				628	block->full = I0_BLOCKS;
				629	}
				630	if (!page_is_empty) {
				631	for (i = start; i < LOGFS_BLOCK_FACTOR; i++) {
				632	ptr = be64_to_cpu(array[i]);
				633	if (ptr)
				634	block->partial++;
				635	if (ptr & LOGFS_FULLY_POPULATED)
				636	block->full++;
				637	}
				638	}
				639	}
				640
				641	static void alloc_data_block(struct inode inode, struct page page)
				642	{
				643	struct logfs_block *block;
				644	u64 bix;
				645	level_t level;
				646
				647	if (PagePrivate(page))
				648	return;
				649
				650	logfs_unpack_index(page->index, &bix, &level);
				651	block = __alloc_block(inode->i_sb, inode->i_ino, bix, level);
				652	block->page = page;
				653	SetPagePrivate(page);
				654	page->private = (unsigned long)block;
				655	block->ops = &indirect_block_ops;
				656	}
				657
				658	static void alloc_indirect_block(struct inode inode, struct page page,
				659	int page_is_empty)
				660	{
				661	struct logfs_block *block;
				662	__be64 *array;
				663
				664	if (PagePrivate(page))
				665	return;
				666
				667	alloc_data_block(inode, page);
				668
				669	block = logfs_block(page);
				670	array = kmap_atomic(page, KM_USER0);
				671	initialize_block_counters(page, block, array, page_is_empty);
				672	kunmap_atomic(array, KM_USER0);
				673	}
				674
				675	static void block_set_pointer(struct page *page, int index, u64 ptr)
				676	{
				677	struct logfs_block *block = logfs_block(page);
				678	__be64 *array;
				679	u64 oldptr;
				680
				681	BUG_ON(!block);
				682	array = kmap_atomic(page, KM_USER0);
				683	oldptr = be64_to_cpu(array[index]);
				684	array[index] = cpu_to_be64(ptr);
				685	kunmap_atomic(array, KM_USER0);
				686	SetPageUptodate(page);
				687
				688	block->full += !!(ptr & LOGFS_FULLY_POPULATED)
				689	- !!(oldptr & LOGFS_FULLY_POPULATED);
				690	block->partial += !!ptr - !!oldptr;
				691	}
				692
				693	static u64 block_get_pointer(struct page *page, int index)
				694	{
				695	__be64 *block;
				696	u64 ptr;
				697
				698	block = kmap_atomic(page, KM_USER0);
				699	ptr = be64_to_cpu(block[index]);
				700	kunmap_atomic(block, KM_USER0);
				701	return ptr;
				702	}
				703
				704	static int logfs_read_empty(struct page *page)
				705	{
				706	zero_user_segment(page, 0, PAGE_CACHE_SIZE);
				707	return 0;
				708	}
				709
				710	static int logfs_read_direct(struct inode inode, struct page page)
				711	{
				712	struct logfs_inode *li = logfs_inode(inode);
				713	pgoff_t index = page->index;
				714	u64 block;
				715
				716	block = li->li_data[index];
				717	if (!block)
				718	return logfs_read_empty(page);
				719
				720	return logfs_segment_read(inode, page, block, index, 0);
				721	}
				722
				723	static int logfs_read_loop(struct inode inode, struct page page,
				724	int rw_context)
				725	{
				726	struct logfs_inode *li = logfs_inode(inode);
				727	u64 bix, bofs = li->li_data[INDIRECT_INDEX];
				728	level_t level, target_level;
				729	int ret;
				730	struct page *ipage;
				731
				732	logfs_unpack_index(page->index, &bix, &target_level);
				733	if (!bofs)
				734	return logfs_read_empty(page);
				735
				736	if (bix >= maxbix(li->li_height))
				737	return logfs_read_empty(page);
				738
				739	for (level = LEVEL(li->li_height);
				740	(__force u8)level > (__force u8)target_level;
				741	level = SUBLEVEL(level)){
				742	ipage = logfs_get_page(inode, bix, level, rw_context);
				743	if (!ipage)
				744	return -ENOMEM;
				745
				746	ret = logfs_segment_read(inode, ipage, bofs, bix, level);
				747	if (ret) {
				748	logfs_put_read_page(ipage);
				749	return ret;
				750	}
				751
				752	bofs = block_get_pointer(ipage, get_bits(bix, SUBLEVEL(level)));
				753	logfs_put_page(ipage, rw_context);
				754	if (!bofs)
				755	return logfs_read_empty(page);
				756	}
				757
				758	return logfs_segment_read(inode, page, bofs, bix, 0);
				759	}
				760
				761	static int logfs_read_block(struct inode inode, struct page page,
				762	int rw_context)
				763	{
				764	pgoff_t index = page->index;
				765
				766	if (index < I0_BLOCKS)
				767	return logfs_read_direct(inode, page);
				768	return logfs_read_loop(inode, page, rw_context);
				769	}
				770
				771	static int logfs_exist_loop(struct inode *inode, u64 bix)
				772	{
				773	struct logfs_inode *li = logfs_inode(inode);
				774	u64 bofs = li->li_data[INDIRECT_INDEX];
				775	level_t level;
				776	int ret;
				777	struct page *ipage;
				778
				779	if (!bofs)
				780	return 0;
				781	if (bix >= maxbix(li->li_height))
				782	return 0;
				783
				784	for (level = LEVEL(li->li_height); level != 0; level = SUBLEVEL(level)) {
				785	ipage = logfs_get_read_page(inode, bix, level);
				786	if (!ipage)
				787	return -ENOMEM;
				788
				789	ret = logfs_segment_read(inode, ipage, bofs, bix, level);
				790	if (ret) {
				791	logfs_put_read_page(ipage);
				792	return ret;
				793	}
				794
				795	bofs = block_get_pointer(ipage, get_bits(bix, SUBLEVEL(level)));
				796	logfs_put_read_page(ipage);
				797	if (!bofs)
				798	return 0;
				799	}
				800
				801	return 1;
				802	}
				803
				804	int logfs_exist_block(struct inode *inode, u64 bix)
				805	{
				806	struct logfs_inode *li = logfs_inode(inode);
				807
				808	if (bix < I0_BLOCKS)
				809	return !!li->li_data[bix];
				810	return logfs_exist_loop(inode, bix);
				811	}
				812
				813	static u64 seek_holedata_direct(struct inode *inode, u64 bix, int data)
				814	{
				815	struct logfs_inode *li = logfs_inode(inode);
				816
				817	for (; bix < I0_BLOCKS; bix++)
				818	if (data ^ (li->li_data[bix] == 0))
				819	return bix;
				820	return I0_BLOCKS;
				821	}
				822
				823	static u64 seek_holedata_loop(struct inode *inode, u64 bix, int data)
				824	{
				825	struct logfs_inode *li = logfs_inode(inode);
				826	__be64 *rblock;
				827	u64 increment, bofs = li->li_data[INDIRECT_INDEX];
				828	level_t level;
				829	int ret, slot;
				830	struct page *page;
				831
				832	BUG_ON(!bofs);
				833
				834	for (level = LEVEL(li->li_height); level != 0; level = SUBLEVEL(level)) {
				835	increment = 1 << (LOGFS_BLOCK_BITS * ((__force u8)level-1));
				836	page = logfs_get_read_page(inode, bix, level);
				837	if (!page)
				838	return bix;
				839
				840	ret = logfs_segment_read(inode, page, bofs, bix, level);
				841	if (ret) {
				842	logfs_put_read_page(page);
				843	return bix;
				844	}
				845
				846	slot = get_bits(bix, SUBLEVEL(level));
				847	rblock = kmap_atomic(page, KM_USER0);
				848	while (slot < LOGFS_BLOCK_FACTOR) {
				849	if (data && (rblock[slot] != 0))
				850	break;
				851	if (!data && !(be64_to_cpu(rblock[slot]) & LOGFS_FULLY_POPULATED))
				852	break;
				853	slot++;
				854	bix += increment;
				855	bix &= ~(increment - 1);
				856	}
				857	if (slot >= LOGFS_BLOCK_FACTOR) {
				858	kunmap_atomic(rblock, KM_USER0);
				859	logfs_put_read_page(page);
				860	return bix;
				861	}
				862	bofs = be64_to_cpu(rblock[slot]);
				863	kunmap_atomic(rblock, KM_USER0);
				864	logfs_put_read_page(page);
				865	if (!bofs) {
				866	BUG_ON(data);
				867	return bix;
				868	}
				869	}
				870	return bix;
				871	}
				872
				873	/**
				874	* logfs_seek_hole - find next hole starting at a given block index
				875	* @inode: inode to search in
				876	* @bix: block index to start searching
				877	*
				878	* Returns next hole. If the file doesn't contain any further holes, the
				879	* block address next to eof is returned instead.
				880	*/
				881	u64 logfs_seek_hole(struct inode *inode, u64 bix)
				882	{
				883	struct logfs_inode *li = logfs_inode(inode);
				884
				885	if (bix < I0_BLOCKS) {
				886	bix = seek_holedata_direct(inode, bix, 0);
				887	if (bix < I0_BLOCKS)
				888	return bix;
				889	}
				890
				891	if (!li->li_data[INDIRECT_INDEX])
				892	return bix;
				893	else if (li->li_data[INDIRECT_INDEX] & LOGFS_FULLY_POPULATED)
				894	bix = maxbix(li->li_height);
Joern Engel	bd2b3f2	2010-05-01 17:33:06 +0200	[diff] [blame^]	895	else if (bix >= maxbix(li->li_height))
				896	return bix;
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	897	else {
				898	bix = seek_holedata_loop(inode, bix, 0);
				899	if (bix < maxbix(li->li_height))
				900	return bix;
				901	/* Should not happen anymore. But if some port writes semi-
				902	* corrupt images (as this one used to) we might run into it.
				903	*/
				904	WARN_ON_ONCE(bix == maxbix(li->li_height));
				905	}
				906
				907	return bix;
				908	}
				909
				910	static u64 __logfs_seek_data(struct inode *inode, u64 bix)
				911	{
				912	struct logfs_inode *li = logfs_inode(inode);
				913
				914	if (bix < I0_BLOCKS) {
				915	bix = seek_holedata_direct(inode, bix, 1);
				916	if (bix < I0_BLOCKS)
				917	return bix;
				918	}
				919
				920	if (bix < maxbix(li->li_height)) {
				921	if (!li->li_data[INDIRECT_INDEX])
				922	bix = maxbix(li->li_height);
				923	else
				924	return seek_holedata_loop(inode, bix, 1);
				925	}
				926
				927	return bix;
				928	}
				929
				930	/**
				931	* logfs_seek_data - find next data block after a given block index
				932	* @inode: inode to search in
				933	* @bix: block index to start searching
				934	*
				935	* Returns next data block. If the file doesn't contain any further data
				936	* blocks, the last block in the file is returned instead.
				937	*/
				938	u64 logfs_seek_data(struct inode *inode, u64 bix)
				939	{
				940	struct super_block *sb = inode->i_sb;
				941	u64 ret, end;
				942
				943	ret = __logfs_seek_data(inode, bix);
				944	end = i_size_read(inode) >> sb->s_blocksize_bits;
				945	if (ret >= end)
				946	ret = max(bix, end);
				947	return ret;
				948	}
				949
				950	static int logfs_is_valid_direct(struct logfs_inode *li, u64 bix, u64 ofs)
				951	{
				952	return pure_ofs(li->li_data[bix]) == ofs;
				953	}
				954
				955	static int __logfs_is_valid_loop(struct inode *inode, u64 bix,
				956	u64 ofs, u64 bofs)
				957	{
				958	struct logfs_inode *li = logfs_inode(inode);
				959	level_t level;
				960	int ret;
				961	struct page *page;
				962
				963	for (level = LEVEL(li->li_height); level != 0; level = SUBLEVEL(level)){
				964	page = logfs_get_write_page(inode, bix, level);
				965	BUG_ON(!page);
				966
				967	ret = logfs_segment_read(inode, page, bofs, bix, level);
				968	if (ret) {
				969	logfs_put_write_page(page);
				970	return 0;
				971	}
				972
				973	bofs = block_get_pointer(page, get_bits(bix, SUBLEVEL(level)));
				974	logfs_put_write_page(page);
				975	if (!bofs)
				976	return 0;
				977
				978	if (pure_ofs(bofs) == ofs)
				979	return 1;
				980	}
				981	return 0;
				982	}
				983
				984	static int logfs_is_valid_loop(struct inode *inode, u64 bix, u64 ofs)
				985	{
				986	struct logfs_inode *li = logfs_inode(inode);
				987	u64 bofs = li->li_data[INDIRECT_INDEX];
				988
				989	if (!bofs)
				990	return 0;
				991
				992	if (bix >= maxbix(li->li_height))
				993	return 0;
				994
				995	if (pure_ofs(bofs) == ofs)
				996	return 1;
				997
				998	return __logfs_is_valid_loop(inode, bix, ofs, bofs);
				999	}
				1000
				1001	static int __logfs_is_valid_block(struct inode *inode, u64 bix, u64 ofs)
				1002	{
				1003	struct logfs_inode *li = logfs_inode(inode);
				1004
				1005	if ((inode->i_nlink == 0) && atomic_read(&inode->i_count) == 1)
				1006	return 0;
				1007
				1008	if (bix < I0_BLOCKS)
				1009	return logfs_is_valid_direct(li, bix, ofs);
				1010	return logfs_is_valid_loop(inode, bix, ofs);
				1011	}
				1012
				1013	/**
				1014	* logfs_is_valid_block - check whether this block is still valid
				1015	*
				1016	* @sb - superblock
				1017	* @ofs - block physical offset
				1018	* @ino - block inode number
				1019	* @bix - block index
				1020	* @level - block level
				1021	*
				1022	* Returns 0 if the block is invalid, 1 if it is valid and 2 if it will
				1023	* become invalid once the journal is written.
				1024	*/
				1025	int logfs_is_valid_block(struct super_block *sb, u64 ofs, u64 ino, u64 bix,
				1026	gc_level_t gc_level)
				1027	{
				1028	struct logfs_super *super = logfs_super(sb);
				1029	struct inode *inode;
				1030	int ret, cookie;
				1031
				1032	/* Umount closes a segment with free blocks remaining. Those
				1033	* blocks are by definition invalid. */
				1034	if (ino == -1)
				1035	return 0;
				1036
				1037	LOGFS_BUG_ON((u64)(u_long)ino != ino, sb);
				1038
				1039	inode = logfs_safe_iget(sb, ino, &cookie);
				1040	if (IS_ERR(inode))
				1041	goto invalid;
				1042
				1043	ret = __logfs_is_valid_block(inode, bix, ofs);
				1044	logfs_safe_iput(inode, cookie);
				1045	if (ret)
				1046	return ret;
				1047
				1048	invalid:
				1049	/* Block is nominally invalid, but may still sit in the shadow tree,
				1050	* waiting for a journal commit.
				1051	*/
				1052	if (btree_lookup64(&super->s_shadow_tree.old, ofs))
				1053	return 2;
				1054	return 0;
				1055	}
				1056
				1057	int logfs_readpage_nolock(struct page *page)
				1058	{
				1059	struct inode *inode = page->mapping->host;
				1060	int ret = -EIO;
				1061
				1062	ret = logfs_read_block(inode, page, READ);
				1063
				1064	if (ret) {
				1065	ClearPageUptodate(page);
				1066	SetPageError(page);
				1067	} else {
				1068	SetPageUptodate(page);
				1069	ClearPageError(page);
				1070	}
				1071	flush_dcache_page(page);
				1072
				1073	return ret;
				1074	}
				1075
				1076	static int logfs_reserve_bytes(struct inode *inode, int bytes)
				1077	{
				1078	struct logfs_super *super = logfs_super(inode->i_sb);
				1079	u64 available = super->s_free_bytes + super->s_dirty_free_bytes
				1080	- super->s_dirty_used_bytes - super->s_dirty_pages;
				1081
				1082	if (!bytes)
				1083	return 0;
				1084
				1085	if (available < bytes)
				1086	return -ENOSPC;
				1087
				1088	if (available < bytes + super->s_root_reserve &&
				1089	!capable(CAP_SYS_RESOURCE))
				1090	return -ENOSPC;
				1091
				1092	return 0;
				1093	}
				1094
				1095	int get_page_reserve(struct inode inode, struct page page)
				1096	{
				1097	struct logfs_super *super = logfs_super(inode->i_sb);
				1098	int ret;
				1099
				1100	if (logfs_block(page) && logfs_block(page)->reserved_bytes)
				1101	return 0;
				1102
				1103	logfs_get_wblocks(inode->i_sb, page, WF_LOCK);
				1104	ret = logfs_reserve_bytes(inode, 6 * LOGFS_MAX_OBJECTSIZE);
				1105	if (!ret) {
				1106	alloc_data_block(inode, page);
				1107	logfs_block(page)->reserved_bytes += 6 * LOGFS_MAX_OBJECTSIZE;
				1108	super->s_dirty_pages += 6 * LOGFS_MAX_OBJECTSIZE;
				1109	}
				1110	logfs_put_wblocks(inode->i_sb, page, WF_LOCK);
				1111	return ret;
				1112	}
				1113
				1114	/*
				1115	* We are protected by write lock. Push victims up to superblock level
				1116	* and release transaction when appropriate.
				1117	*/
				1118	/* FIXME: This is currently called from the wrong spots. */
				1119	static void logfs_handle_transaction(struct inode *inode,
				1120	struct logfs_transaction *ta)
				1121	{
				1122	struct logfs_super *super = logfs_super(inode->i_sb);
				1123
				1124	if (!ta)
				1125	return;
				1126	logfs_inode(inode)->li_block->ta = NULL;
				1127
				1128	if (inode->i_ino != LOGFS_INO_MASTER) {
				1129	BUG(); /* FIXME: Yes, this needs more thought */
				1130	/* just remember the transaction until inode is written */
				1131	//BUG_ON(logfs_inode(inode)->li_transaction);
				1132	//logfs_inode(inode)->li_transaction = ta;
				1133	return;
				1134	}
				1135
				1136	switch (ta->state) {
				1137	case CREATE_1: /* fall through */
				1138	case UNLINK_1:
				1139	BUG_ON(super->s_victim_ino);
				1140	super->s_victim_ino = ta->ino;
				1141	break;
				1142	case CREATE_2: /* fall through */
				1143	case UNLINK_2:
				1144	BUG_ON(super->s_victim_ino != ta->ino);
				1145	super->s_victim_ino = 0;
				1146	/* transaction ends here - free it */
				1147	kfree(ta);
				1148	break;
				1149	case CROSS_RENAME_1:
				1150	BUG_ON(super->s_rename_dir);
				1151	BUG_ON(super->s_rename_pos);
				1152	super->s_rename_dir = ta->dir;
				1153	super->s_rename_pos = ta->pos;
				1154	break;
				1155	case CROSS_RENAME_2:
				1156	BUG_ON(super->s_rename_dir != ta->dir);
				1157	BUG_ON(super->s_rename_pos != ta->pos);
				1158	super->s_rename_dir = 0;
				1159	super->s_rename_pos = 0;
				1160	kfree(ta);
				1161	break;
				1162	case TARGET_RENAME_1:
				1163	BUG_ON(super->s_rename_dir);
				1164	BUG_ON(super->s_rename_pos);
				1165	BUG_ON(super->s_victim_ino);
				1166	super->s_rename_dir = ta->dir;
				1167	super->s_rename_pos = ta->pos;
				1168	super->s_victim_ino = ta->ino;
				1169	break;
				1170	case TARGET_RENAME_2:
				1171	BUG_ON(super->s_rename_dir != ta->dir);
				1172	BUG_ON(super->s_rename_pos != ta->pos);
				1173	BUG_ON(super->s_victim_ino != ta->ino);
				1174	super->s_rename_dir = 0;
				1175	super->s_rename_pos = 0;
				1176	break;
				1177	case TARGET_RENAME_3:
				1178	BUG_ON(super->s_rename_dir);
				1179	BUG_ON(super->s_rename_pos);
				1180	BUG_ON(super->s_victim_ino != ta->ino);
				1181	super->s_victim_ino = 0;
				1182	kfree(ta);
				1183	break;
				1184	default:
				1185	BUG();
				1186	}
				1187	}
				1188
				1189	/*
				1190	* Not strictly a reservation, but rather a check that we still have enough
				1191	* space to satisfy the write.
				1192	*/
				1193	static int logfs_reserve_blocks(struct inode *inode, int blocks)
				1194	{
				1195	return logfs_reserve_bytes(inode, blocks * LOGFS_MAX_OBJECTSIZE);
				1196	}
				1197
				1198	struct write_control {
				1199	u64 ofs;
				1200	long flags;
				1201	};
				1202
				1203	static struct logfs_shadow alloc_shadow(struct inode inode, u64 bix,
				1204	level_t level, u64 old_ofs)
				1205	{
				1206	struct logfs_super *super = logfs_super(inode->i_sb);
				1207	struct logfs_shadow *shadow;
				1208
				1209	shadow = mempool_alloc(super->s_shadow_pool, GFP_NOFS);
				1210	memset(shadow, 0, sizeof(*shadow));
				1211	shadow->ino = inode->i_ino;
				1212	shadow->bix = bix;
				1213	shadow->gc_level = expand_level(inode->i_ino, level);
				1214	shadow->old_ofs = old_ofs & ~LOGFS_FULLY_POPULATED;
				1215	return shadow;
				1216	}
				1217
				1218	static void free_shadow(struct inode inode, struct logfs_shadow shadow)
				1219	{
				1220	struct logfs_super *super = logfs_super(inode->i_sb);
				1221
				1222	mempool_free(shadow, super->s_shadow_pool);
				1223	}
				1224
Joern Engel	032d8f7	2010-04-13 17:46:37 +0200	[diff] [blame]	1225	static void mark_segment(struct shadow_tree *tree, u32 segno)
				1226	{
				1227	int err;
				1228
				1229	if (!btree_lookup32(&tree->segment_map, segno)) {
				1230	err = btree_insert32(&tree->segment_map, segno, (void *)1,
				1231	GFP_NOFS);
				1232	BUG_ON(err);
				1233	tree->no_shadowed_segments++;
				1234	}
				1235	}
				1236
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	1237	/**
				1238	* fill_shadow_tree - Propagate shadow tree changes due to a write
				1239	* @inode: Inode owning the page
				1240	* @page: Struct page that was written
				1241	* @shadow: Shadow for the current write
				1242	*
				1243	* Writes in logfs can result in two semi-valid objects. The old object
				1244	* is still valid as long as it can be reached by following pointers on
				1245	* the medium. Only when writes propagate all the way up to the journal
				1246	* has the new object safely replaced the old one.
				1247	*
				1248	* To handle this problem, a struct logfs_shadow is used to represent
				1249	* every single write. It is attached to the indirect block, which is
				1250	* marked dirty. When the indirect block is written, its shadows are
				1251	* handed up to the next indirect block (or inode). Untimately they
				1252	* will reach the master inode and be freed upon journal commit.
				1253	*
				1254	* This function handles a single step in the propagation. It adds the
				1255	* shadow for the current write to the tree, along with any shadows in
				1256	* the page's tree, in case it was an indirect block. If a page is
				1257	* written, the inode parameter is left NULL, if an inode is written,
				1258	* the page parameter is left NULL.
				1259	*/
				1260	static void fill_shadow_tree(struct inode inode, struct page page,
				1261	struct logfs_shadow *shadow)
				1262	{
				1263	struct logfs_super *super = logfs_super(inode->i_sb);
				1264	struct logfs_block *block = logfs_block(page);
				1265	struct shadow_tree *tree = &super->s_shadow_tree;
				1266
				1267	if (PagePrivate(page)) {
				1268	if (block->alias_map)
				1269	super->s_no_object_aliases -= bitmap_weight(
				1270	block->alias_map, LOGFS_BLOCK_FACTOR);
				1271	logfs_handle_transaction(inode, block->ta);
				1272	block->ops->free_block(inode->i_sb, block);
				1273	}
				1274	if (shadow) {
				1275	if (shadow->old_ofs)
				1276	btree_insert64(&tree->old, shadow->old_ofs, shadow,
				1277	GFP_NOFS);
				1278	else
				1279	btree_insert64(&tree->new, shadow->new_ofs, shadow,
				1280	GFP_NOFS);
				1281
				1282	super->s_dirty_used_bytes += shadow->new_len;
				1283	super->s_dirty_free_bytes += shadow->old_len;
Joern Engel	032d8f7	2010-04-13 17:46:37 +0200	[diff] [blame]	1284	mark_segment(tree, shadow->old_ofs >> super->s_segshift);
				1285	mark_segment(tree, shadow->new_ofs >> super->s_segshift);
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	1286	}
				1287	}
				1288
				1289	static void logfs_set_alias(struct super_block sb, struct logfs_block block,
				1290	long child_no)
				1291	{
				1292	struct logfs_super *super = logfs_super(sb);
				1293
				1294	if (block->inode && block->inode->i_ino == LOGFS_INO_MASTER) {
				1295	/* Aliases in the master inode are pointless. */
				1296	return;
				1297	}
				1298
				1299	if (!test_bit(child_no, block->alias_map)) {
				1300	set_bit(child_no, block->alias_map);
				1301	super->s_no_object_aliases++;
				1302	}
				1303	list_move_tail(&block->alias_list, &super->s_object_alias);
				1304	}
				1305
				1306	/*
				1307	* Object aliases can and often do change the size and occupied space of a
				1308	* file. So not only do we have to change the pointers, we also have to
				1309	* change inode->i_size and li->li_used_bytes. Which is done by setting
				1310	* another two object aliases for the inode itself.
				1311	*/
				1312	static void set_iused(struct inode inode, struct logfs_shadow shadow)
				1313	{
				1314	struct logfs_inode *li = logfs_inode(inode);
				1315
				1316	if (shadow->new_len == shadow->old_len)
				1317	return;
				1318
				1319	alloc_inode_block(inode);
				1320	li->li_used_bytes += shadow->new_len - shadow->old_len;
				1321	__logfs_set_blocks(inode);
				1322	logfs_set_alias(inode->i_sb, li->li_block, INODE_USED_OFS);
				1323	logfs_set_alias(inode->i_sb, li->li_block, INODE_SIZE_OFS);
				1324	}
				1325
				1326	static int logfs_write_i0(struct inode inode, struct page page,
				1327	struct write_control *wc)
				1328	{
				1329	struct logfs_shadow *shadow;
				1330	u64 bix;
				1331	level_t level;
				1332	int full, err = 0;
				1333
				1334	logfs_unpack_index(page->index, &bix, &level);
				1335	if (wc->ofs == 0)
				1336	if (logfs_reserve_blocks(inode, 1))
				1337	return -ENOSPC;
				1338
				1339	shadow = alloc_shadow(inode, bix, level, wc->ofs);
				1340	if (wc->flags & WF_WRITE)
				1341	err = logfs_segment_write(inode, page, shadow);
				1342	if (wc->flags & WF_DELETE)
				1343	logfs_segment_delete(inode, shadow);
				1344	if (err) {
				1345	free_shadow(inode, shadow);
				1346	return err;
				1347	}
				1348
				1349	set_iused(inode, shadow);
				1350	full = 1;
				1351	if (level != 0) {
				1352	alloc_indirect_block(inode, page, 0);
				1353	full = logfs_block(page)->full == LOGFS_BLOCK_FACTOR;
				1354	}
				1355	fill_shadow_tree(inode, page, shadow);
				1356	wc->ofs = shadow->new_ofs;
				1357	if (wc->ofs && full)
				1358	wc->ofs \|= LOGFS_FULLY_POPULATED;
				1359	return 0;
				1360	}
				1361
				1362	static int logfs_write_direct(struct inode inode, struct page page,
				1363	long flags)
				1364	{
				1365	struct logfs_inode *li = logfs_inode(inode);
				1366	struct write_control wc = {
				1367	.ofs = li->li_data[page->index],
				1368	.flags = flags,
				1369	};
				1370	int err;
				1371
				1372	alloc_inode_block(inode);
				1373
				1374	err = logfs_write_i0(inode, page, &wc);
				1375	if (err)
				1376	return err;
				1377
				1378	li->li_data[page->index] = wc.ofs;
				1379	logfs_set_alias(inode->i_sb, li->li_block,
				1380	page->index + INODE_POINTER_OFS);
				1381	return 0;
				1382	}
				1383
				1384	static int ptr_change(u64 ofs, struct page *page)
				1385	{
				1386	struct logfs_block *block = logfs_block(page);
				1387	int empty0, empty1, full0, full1;
				1388
				1389	empty0 = ofs == 0;
				1390	empty1 = block->partial == 0;
				1391	if (empty0 != empty1)
				1392	return 1;
				1393
				1394	/* The !! is necessary to shrink result to int */
				1395	full0 = !!(ofs & LOGFS_FULLY_POPULATED);
				1396	full1 = block->full == LOGFS_BLOCK_FACTOR;
				1397	if (full0 != full1)
				1398	return 1;
				1399	return 0;
				1400	}
				1401
				1402	static int __logfs_write_rec(struct inode inode, struct page page,
				1403	struct write_control *this_wc,
				1404	pgoff_t bix, level_t target_level, level_t level)
				1405	{
				1406	int ret, page_empty = 0;
				1407	int child_no = get_bits(bix, SUBLEVEL(level));
				1408	struct page *ipage;
				1409	struct write_control child_wc = {
				1410	.flags = this_wc->flags,
				1411	};
				1412
				1413	ipage = logfs_get_write_page(inode, bix, level);
				1414	if (!ipage)
				1415	return -ENOMEM;
				1416
				1417	if (this_wc->ofs) {
				1418	ret = logfs_segment_read(inode, ipage, this_wc->ofs, bix, level);
				1419	if (ret)
				1420	goto out;
				1421	} else if (!PageUptodate(ipage)) {
				1422	page_empty = 1;
				1423	logfs_read_empty(ipage);
				1424	}
				1425
				1426	child_wc.ofs = block_get_pointer(ipage, child_no);
				1427
				1428	if ((__force u8)level-1 > (__force u8)target_level)
				1429	ret = __logfs_write_rec(inode, page, &child_wc, bix,
				1430	target_level, SUBLEVEL(level));
				1431	else
				1432	ret = logfs_write_i0(inode, page, &child_wc);
				1433
				1434	if (ret)
				1435	goto out;
				1436
				1437	alloc_indirect_block(inode, ipage, page_empty);
				1438	block_set_pointer(ipage, child_no, child_wc.ofs);
				1439	/* FIXME: first condition seems superfluous */
				1440	if (child_wc.ofs \|\| logfs_block(ipage)->partial)
				1441	this_wc->flags \|= WF_WRITE;
				1442	/* the condition on this_wc->ofs ensures that we won't consume extra
				1443	* space for indirect blocks in the future, which we cannot reserve */
				1444	if (!this_wc->ofs \|\| ptr_change(this_wc->ofs, ipage))
				1445	ret = logfs_write_i0(inode, ipage, this_wc);
				1446	else
				1447	logfs_set_alias(inode->i_sb, logfs_block(ipage), child_no);
				1448	out:
				1449	logfs_put_write_page(ipage);
				1450	return ret;
				1451	}
				1452
				1453	static int logfs_write_rec(struct inode inode, struct page page,
				1454	pgoff_t bix, level_t target_level, long flags)
				1455	{
				1456	struct logfs_inode *li = logfs_inode(inode);
				1457	struct write_control wc = {
				1458	.ofs = li->li_data[INDIRECT_INDEX],
				1459	.flags = flags,
				1460	};
				1461	int ret;
				1462
				1463	alloc_inode_block(inode);
				1464
				1465	if (li->li_height > (__force u8)target_level)
				1466	ret = __logfs_write_rec(inode, page, &wc, bix, target_level,
				1467	LEVEL(li->li_height));
				1468	else
				1469	ret = logfs_write_i0(inode, page, &wc);
				1470	if (ret)
				1471	return ret;
				1472
				1473	if (li->li_data[INDIRECT_INDEX] != wc.ofs) {
				1474	li->li_data[INDIRECT_INDEX] = wc.ofs;
				1475	logfs_set_alias(inode->i_sb, li->li_block,
				1476	INDIRECT_INDEX + INODE_POINTER_OFS);
				1477	}
				1478	return ret;
				1479	}
				1480
				1481	void logfs_add_transaction(struct inode inode, struct logfs_transaction ta)
				1482	{
				1483	alloc_inode_block(inode);
				1484	logfs_inode(inode)->li_block->ta = ta;
				1485	}
				1486
				1487	void logfs_del_transaction(struct inode inode, struct logfs_transaction ta)
				1488	{
				1489	struct logfs_block *block = logfs_inode(inode)->li_block;
				1490
				1491	if (block && block->ta)
				1492	block->ta = NULL;
				1493	}
				1494
				1495	static int grow_inode(struct inode *inode, u64 bix, level_t level)
				1496	{
				1497	struct logfs_inode *li = logfs_inode(inode);
				1498	u8 height = (__force u8)level;
				1499	struct page *page;
				1500	struct write_control wc = {
				1501	.flags = WF_WRITE,
				1502	};
				1503	int err;
				1504
				1505	BUG_ON(height > 5 \|\| li->li_height > 5);
				1506	while (height > li->li_height \|\| bix >= maxbix(li->li_height)) {
				1507	page = logfs_get_write_page(inode, I0_BLOCKS + 1,
				1508	LEVEL(li->li_height + 1));
				1509	if (!page)
				1510	return -ENOMEM;
				1511	logfs_read_empty(page);
				1512	alloc_indirect_block(inode, page, 1);
				1513	block_set_pointer(page, 0, li->li_data[INDIRECT_INDEX]);
				1514	err = logfs_write_i0(inode, page, &wc);
				1515	logfs_put_write_page(page);
				1516	if (err)
				1517	return err;
				1518	li->li_data[INDIRECT_INDEX] = wc.ofs;
				1519	wc.ofs = 0;
				1520	li->li_height++;
				1521	logfs_set_alias(inode->i_sb, li->li_block, INODE_HEIGHT_OFS);
				1522	}
				1523	return 0;
				1524	}
				1525
				1526	static int __logfs_write_buf(struct inode inode, struct page page, long flags)
				1527	{
				1528	struct logfs_super *super = logfs_super(inode->i_sb);
				1529	pgoff_t index = page->index;
				1530	u64 bix;
				1531	level_t level;
				1532	int err;
				1533
				1534	flags \|= WF_WRITE \| WF_DELETE;
				1535	inode->i_ctime = inode->i_mtime = CURRENT_TIME;
				1536
				1537	logfs_unpack_index(index, &bix, &level);
				1538	if (logfs_block(page) && logfs_block(page)->reserved_bytes)
				1539	super->s_dirty_pages -= logfs_block(page)->reserved_bytes;
				1540
				1541	if (index < I0_BLOCKS)
				1542	return logfs_write_direct(inode, page, flags);
				1543
				1544	bix = adjust_bix(bix, level);
				1545	err = grow_inode(inode, bix, level);
				1546	if (err)
				1547	return err;
				1548	return logfs_write_rec(inode, page, bix, level, flags);
				1549	}
				1550
				1551	int logfs_write_buf(struct inode inode, struct page page, long flags)
				1552	{
				1553	struct super_block *sb = inode->i_sb;
				1554	int ret;
				1555
				1556	logfs_get_wblocks(sb, page, flags & WF_LOCK);
				1557	ret = __logfs_write_buf(inode, page, flags);
				1558	logfs_put_wblocks(sb, page, flags & WF_LOCK);
				1559	return ret;
				1560	}
				1561
				1562	static int __logfs_delete(struct inode inode, struct page page)
				1563	{
				1564	long flags = WF_DELETE;
				1565
				1566	inode->i_ctime = inode->i_mtime = CURRENT_TIME;
				1567
				1568	if (page->index < I0_BLOCKS)
				1569	return logfs_write_direct(inode, page, flags);
				1570	return logfs_write_rec(inode, page, page->index, 0, flags);
				1571	}
				1572
				1573	int logfs_delete(struct inode *inode, pgoff_t index,
				1574	struct shadow_tree *shadow_tree)
				1575	{
				1576	struct super_block *sb = inode->i_sb;
				1577	struct page *page;
				1578	int ret;
				1579
				1580	page = logfs_get_read_page(inode, index, 0);
				1581	if (!page)
				1582	return -ENOMEM;
				1583
				1584	logfs_get_wblocks(sb, page, 1);
				1585	ret = __logfs_delete(inode, page);
				1586	logfs_put_wblocks(sb, page, 1);
				1587
				1588	logfs_put_read_page(page);
				1589
				1590	return ret;
				1591	}
				1592
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	1593	int logfs_rewrite_block(struct inode *inode, u64 bix, u64 ofs,
				1594	gc_level_t gc_level, long flags)
				1595	{
				1596	level_t level = shrink_level(gc_level);
				1597	struct page *page;
				1598	int err;
				1599
				1600	page = logfs_get_write_page(inode, bix, level);
				1601	if (!page)
				1602	return -ENOMEM;
				1603
				1604	err = logfs_segment_read(inode, page, ofs, bix, level);
				1605	if (!err) {
				1606	if (level != 0)
				1607	alloc_indirect_block(inode, page, 0);
				1608	err = logfs_write_buf(inode, page, flags);
Joern Engel	1932191	2010-03-27 09:56:58 +0100	[diff] [blame]	1609	if (!err && shrink_level(gc_level) == 0) {
				1610	/* Rewrite cannot mark the inode dirty but has to
				1611	* write it immediatly.
				1612	* Q: Can't we just create an alias for the inode
				1613	* instead? And if not, why not?
				1614	*/
				1615	if (inode->i_ino == LOGFS_INO_MASTER)
				1616	logfs_write_anchor(inode->i_sb);
				1617	else {
				1618	err = __logfs_write_inode(inode, flags);
				1619	}
				1620	}
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	1621	}
				1622	logfs_put_write_page(page);
				1623	return err;
				1624	}
				1625
				1626	static int truncate_data_block(struct inode inode, struct page page,
				1627	u64 ofs, struct logfs_shadow *shadow, u64 size)
				1628	{
				1629	loff_t pageofs = page->index << inode->i_sb->s_blocksize_bits;
				1630	u64 bix;
				1631	level_t level;
				1632	int err;
				1633
				1634	/* Does truncation happen within this page? */
				1635	if (size <= pageofs \|\| size - pageofs >= PAGE_SIZE)
				1636	return 0;
				1637
				1638	logfs_unpack_index(page->index, &bix, &level);
				1639	BUG_ON(level != 0);
				1640
				1641	err = logfs_segment_read(inode, page, ofs, bix, level);
				1642	if (err)
				1643	return err;
				1644
				1645	zero_user_segment(page, size - pageofs, PAGE_CACHE_SIZE);
				1646	return logfs_segment_write(inode, page, shadow);
				1647	}
				1648
				1649	static int logfs_truncate_i0(struct inode inode, struct page page,
				1650	struct write_control *wc, u64 size)
				1651	{
				1652	struct logfs_shadow *shadow;
				1653	u64 bix;
				1654	level_t level;
				1655	int err = 0;
				1656
				1657	logfs_unpack_index(page->index, &bix, &level);
				1658	BUG_ON(level != 0);
				1659	shadow = alloc_shadow(inode, bix, level, wc->ofs);
				1660
				1661	err = truncate_data_block(inode, page, wc->ofs, shadow, size);
				1662	if (err) {
				1663	free_shadow(inode, shadow);
				1664	return err;
				1665	}
				1666
				1667	logfs_segment_delete(inode, shadow);
				1668	set_iused(inode, shadow);
				1669	fill_shadow_tree(inode, page, shadow);
				1670	wc->ofs = shadow->new_ofs;
				1671	return 0;
				1672	}
				1673
				1674	static int logfs_truncate_direct(struct inode *inode, u64 size)
				1675	{
				1676	struct logfs_inode *li = logfs_inode(inode);
				1677	struct write_control wc;
				1678	struct page *page;
				1679	int e;
				1680	int err;
				1681
				1682	alloc_inode_block(inode);
				1683
				1684	for (e = I0_BLOCKS - 1; e >= 0; e--) {
				1685	if (size > (e+1) * LOGFS_BLOCKSIZE)
				1686	break;
				1687
				1688	wc.ofs = li->li_data[e];
				1689	if (!wc.ofs)
				1690	continue;
				1691
				1692	page = logfs_get_write_page(inode, e, 0);
				1693	if (!page)
				1694	return -ENOMEM;
				1695	err = logfs_segment_read(inode, page, wc.ofs, e, 0);
				1696	if (err) {
				1697	logfs_put_write_page(page);
				1698	return err;
				1699	}
				1700	err = logfs_truncate_i0(inode, page, &wc, size);
				1701	logfs_put_write_page(page);
				1702	if (err)
				1703	return err;
				1704
				1705	li->li_data[e] = wc.ofs;
				1706	}
				1707	return 0;
				1708	}
				1709
				1710	/* FIXME: these need to become per-sb once we support different blocksizes */
				1711	static u64 __logfs_step[] = {
				1712	1,
				1713	I1_BLOCKS,
				1714	I2_BLOCKS,
				1715	I3_BLOCKS,
				1716	};
				1717
				1718	static u64 __logfs_start_index[] = {
				1719	I0_BLOCKS,
				1720	I1_BLOCKS,
				1721	I2_BLOCKS,
				1722	I3_BLOCKS
				1723	};
				1724
				1725	static inline u64 logfs_step(level_t level)
				1726	{
				1727	return __logfs_step[(__force u8)level];
				1728	}
				1729
				1730	static inline u64 logfs_factor(u8 level)
				1731	{
				1732	return __logfs_step[level] * LOGFS_BLOCKSIZE;
				1733	}
				1734
				1735	static inline u64 logfs_start_index(level_t level)
				1736	{
				1737	return __logfs_start_index[(__force u8)level];
				1738	}
				1739
				1740	static void logfs_unpack_raw_index(pgoff_t index, u64 bix, level_t level)
				1741	{
				1742	logfs_unpack_index(index, bix, level);
				1743	if (bix <= logfs_start_index(SUBLEVEL(level)))
				1744	*bix = 0;
				1745	}
				1746
				1747	static int __logfs_truncate_rec(struct inode inode, struct page ipage,
				1748	struct write_control *this_wc, u64 size)
				1749	{
				1750	int truncate_happened = 0;
				1751	int e, err = 0;
				1752	u64 bix, child_bix, next_bix;
				1753	level_t level;
				1754	struct page *page;
				1755	struct write_control child_wc = { /* FIXME: flags */ };
				1756
				1757	logfs_unpack_raw_index(ipage->index, &bix, &level);
				1758	err = logfs_segment_read(inode, ipage, this_wc->ofs, bix, level);
				1759	if (err)
				1760	return err;
				1761
				1762	for (e = LOGFS_BLOCK_FACTOR - 1; e >= 0; e--) {
				1763	child_bix = bix + e * logfs_step(SUBLEVEL(level));
				1764	next_bix = child_bix + logfs_step(SUBLEVEL(level));
				1765	if (size > next_bix * LOGFS_BLOCKSIZE)
				1766	break;
				1767
				1768	child_wc.ofs = pure_ofs(block_get_pointer(ipage, e));
				1769	if (!child_wc.ofs)
				1770	continue;
				1771
				1772	page = logfs_get_write_page(inode, child_bix, SUBLEVEL(level));
				1773	if (!page)
				1774	return -ENOMEM;
				1775
				1776	if ((__force u8)level > 1)
				1777	err = __logfs_truncate_rec(inode, page, &child_wc, size);
				1778	else
				1779	err = logfs_truncate_i0(inode, page, &child_wc, size);
				1780	logfs_put_write_page(page);
				1781	if (err)
				1782	return err;
				1783
				1784	truncate_happened = 1;
				1785	alloc_indirect_block(inode, ipage, 0);
				1786	block_set_pointer(ipage, e, child_wc.ofs);
				1787	}
				1788
				1789	if (!truncate_happened) {
				1790	printk("ineffectual truncate (%lx, %lx, %llx)\n", inode->i_ino, ipage->index, size);
				1791	return 0;
				1792	}
				1793
				1794	this_wc->flags = WF_DELETE;
				1795	if (logfs_block(ipage)->partial)
				1796	this_wc->flags \|= WF_WRITE;
				1797
				1798	return logfs_write_i0(inode, ipage, this_wc);
				1799	}
				1800
				1801	static int logfs_truncate_rec(struct inode *inode, u64 size)
				1802	{
				1803	struct logfs_inode *li = logfs_inode(inode);
				1804	struct write_control wc = {
				1805	.ofs = li->li_data[INDIRECT_INDEX],
				1806	};
				1807	struct page *page;
				1808	int err;
				1809
				1810	alloc_inode_block(inode);
				1811
				1812	if (!wc.ofs)
				1813	return 0;
				1814
				1815	page = logfs_get_write_page(inode, 0, LEVEL(li->li_height));
				1816	if (!page)
				1817	return -ENOMEM;
				1818
				1819	err = __logfs_truncate_rec(inode, page, &wc, size);
				1820	logfs_put_write_page(page);
				1821	if (err)
				1822	return err;
				1823
				1824	if (li->li_data[INDIRECT_INDEX] != wc.ofs)
				1825	li->li_data[INDIRECT_INDEX] = wc.ofs;
				1826	return 0;
				1827	}
				1828
				1829	static int __logfs_truncate(struct inode *inode, u64 size)
				1830	{
				1831	int ret;
				1832
				1833	if (size >= logfs_factor(logfs_inode(inode)->li_height))
				1834	return 0;
				1835
				1836	ret = logfs_truncate_rec(inode, size);
				1837	if (ret)
				1838	return ret;
				1839
				1840	return logfs_truncate_direct(inode, size);
				1841	}
				1842
Joern Engel	b6349ac	2010-04-20 21:44:10 +0200	[diff] [blame]	1843	/*
				1844	* Truncate, by changing the segment file, can consume a fair amount
				1845	* of resources. So back off from time to time and do some GC.
				1846	* 8 or 2048 blocks should be well within safety limits even if
				1847	* every single block resided in a different segment.
				1848	*/
				1849	#define TRUNCATE_STEP (8 * 1024 * 1024)
				1850	int logfs_truncate(struct inode *inode, u64 target)
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	1851	{
				1852	struct super_block *sb = inode->i_sb;
Joern Engel	b6349ac	2010-04-20 21:44:10 +0200	[diff] [blame]	1853	u64 size = i_size_read(inode);
				1854	int err = 0;
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	1855
Joern Engel	b6349ac	2010-04-20 21:44:10 +0200	[diff] [blame]	1856	size = ALIGN(size, TRUNCATE_STEP);
				1857	while (size > target) {
				1858	if (size > TRUNCATE_STEP)
				1859	size -= TRUNCATE_STEP;
				1860	else
				1861	size = 0;
				1862	if (size < target)
				1863	size = target;
				1864
				1865	logfs_get_wblocks(sb, NULL, 1);
Joern Engel	2e531fa	2010-04-29 14:56:37 +0200	[diff] [blame]	1866	err = __logfs_truncate(inode, size);
Joern Engel	b6349ac	2010-04-20 21:44:10 +0200	[diff] [blame]	1867	if (!err)
				1868	err = __logfs_write_inode(inode, 0);
				1869	logfs_put_wblocks(sb, NULL, 1);
				1870	}
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	1871
				1872	if (!err)
Joern Engel	b6349ac	2010-04-20 21:44:10 +0200	[diff] [blame]	1873	err = vmtruncate(inode, target);
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	1874
				1875	/* I don't trust error recovery yet. */
				1876	WARN_ON(err);
				1877	return err;
				1878	}
				1879
				1880	static void move_page_to_inode(struct inode inode, struct page page)
				1881	{
				1882	struct logfs_inode *li = logfs_inode(inode);
				1883	struct logfs_block *block = logfs_block(page);
				1884
				1885	if (!block)
				1886	return;
				1887
				1888	log_blockmove("move_page_to_inode(%llx, %llx, %x)\n",
				1889	block->ino, block->bix, block->level);
				1890	BUG_ON(li->li_block);
				1891	block->ops = &inode_block_ops;
				1892	block->inode = inode;
				1893	li->li_block = block;
				1894
				1895	block->page = NULL;
				1896	page->private = 0;
				1897	ClearPagePrivate(page);
				1898	}
				1899
				1900	static void move_inode_to_page(struct page page, struct inode inode)
				1901	{
				1902	struct logfs_inode *li = logfs_inode(inode);
				1903	struct logfs_block *block = li->li_block;
				1904
				1905	if (!block)
				1906	return;
				1907
				1908	log_blockmove("move_inode_to_page(%llx, %llx, %x)\n",
				1909	block->ino, block->bix, block->level);
				1910	BUG_ON(PagePrivate(page));
				1911	block->ops = &indirect_block_ops;
				1912	block->page = page;
				1913	page->private = (unsigned long)block;
				1914	SetPagePrivate(page);
				1915
				1916	block->inode = NULL;
				1917	li->li_block = NULL;
				1918	}
				1919
				1920	int logfs_read_inode(struct inode *inode)
				1921	{
				1922	struct super_block *sb = inode->i_sb;
				1923	struct logfs_super *super = logfs_super(sb);
				1924	struct inode *master_inode = super->s_master_inode;
				1925	struct page *page;
				1926	struct logfs_disk_inode *di;
				1927	u64 ino = inode->i_ino;
				1928
				1929	if (ino << sb->s_blocksize_bits > i_size_read(master_inode))
				1930	return -ENODATA;
				1931	if (!logfs_exist_block(master_inode, ino))
				1932	return -ENODATA;
				1933
				1934	page = read_cache_page(master_inode->i_mapping, ino,
				1935	(filler_t *)logfs_readpage, NULL);
				1936	if (IS_ERR(page))
				1937	return PTR_ERR(page);
				1938
				1939	di = kmap_atomic(page, KM_USER0);
				1940	logfs_disk_to_inode(di, inode);
				1941	kunmap_atomic(di, KM_USER0);
				1942	move_page_to_inode(inode, page);
				1943	page_cache_release(page);
				1944	return 0;
				1945	}
				1946
				1947	/* Caller must logfs_put_write_page(page); */
				1948	static struct page inode_to_page(struct inode inode)
				1949	{
				1950	struct inode *master_inode = logfs_super(inode->i_sb)->s_master_inode;
				1951	struct logfs_disk_inode *di;
				1952	struct page *page;
				1953
				1954	BUG_ON(inode->i_ino == LOGFS_INO_MASTER);
				1955
				1956	page = logfs_get_write_page(master_inode, inode->i_ino, 0);
				1957	if (!page)
				1958	return NULL;
				1959
				1960	di = kmap_atomic(page, KM_USER0);
				1961	logfs_inode_to_disk(inode, di);
				1962	kunmap_atomic(di, KM_USER0);
				1963	move_inode_to_page(page, inode);
				1964	return page;
				1965	}
				1966
				1967	/* Cheaper version of write_inode. All changes are concealed in
				1968	* aliases, which are moved back. No write to the medium happens.
				1969	*/
				1970	void logfs_clear_inode(struct inode *inode)
				1971	{
				1972	struct super_block *sb = inode->i_sb;
				1973	struct logfs_inode *li = logfs_inode(inode);
				1974	struct logfs_block *block = li->li_block;
				1975	struct page *page;
				1976
				1977	/* Only deleted files may be dirty at this point */
				1978	BUG_ON(inode->i_state & I_DIRTY && inode->i_nlink);
				1979	if (!block)
				1980	return;
				1981	if ((logfs_super(sb)->s_flags & LOGFS_SB_FLAG_SHUTDOWN)) {
				1982	block->ops->free_block(inode->i_sb, block);
				1983	return;
				1984	}
				1985
				1986	BUG_ON(inode->i_ino < LOGFS_RESERVED_INOS);
				1987	page = inode_to_page(inode);
				1988	BUG_ON(!page); /* FIXME: Use emergency page */
				1989	logfs_put_write_page(page);
				1990	}
				1991
				1992	static int do_write_inode(struct inode *inode)
				1993	{
				1994	struct super_block *sb = inode->i_sb;
				1995	struct inode *master_inode = logfs_super(sb)->s_master_inode;
				1996	loff_t size = (inode->i_ino + 1) << inode->i_sb->s_blocksize_bits;
				1997	struct page *page;
				1998	int err;
				1999
				2000	BUG_ON(inode->i_ino == LOGFS_INO_MASTER);
				2001	/* FIXME: lock inode */
				2002
				2003	if (i_size_read(master_inode) < size)
				2004	i_size_write(master_inode, size);
				2005
				2006	/* TODO: Tell vfs this inode is clean now */
				2007
				2008	page = inode_to_page(inode);
				2009	if (!page)
				2010	return -ENOMEM;
				2011
				2012	/* FIXME: transaction is part of logfs_block now. Is that enough? */
				2013	err = logfs_write_buf(master_inode, page, 0);
				2014	logfs_put_write_page(page);
				2015	return err;
				2016	}
				2017
				2018	static void logfs_mod_segment_entry(struct super_block *sb, u32 segno,
				2019	int write,
				2020	void (change_se)(struct logfs_segment_entry , long),
				2021	long arg)
				2022	{
				2023	struct logfs_super *super = logfs_super(sb);
				2024	struct inode *inode;
				2025	struct page *page;
				2026	struct logfs_segment_entry *se;
				2027	pgoff_t page_no;
				2028	int child_no;
				2029
				2030	page_no = segno >> (sb->s_blocksize_bits - 3);
				2031	child_no = segno & ((sb->s_blocksize >> 3) - 1);
				2032
				2033	inode = super->s_segfile_inode;
				2034	page = logfs_get_write_page(inode, page_no, 0);
				2035	BUG_ON(!page); /* FIXME: We need some reserve page for this case */
				2036	if (!PageUptodate(page))
				2037	logfs_read_block(inode, page, WRITE);
				2038
				2039	if (write)
				2040	alloc_indirect_block(inode, page, 0);
				2041	se = kmap_atomic(page, KM_USER0);
				2042	change_se(se + child_no, arg);
				2043	if (write) {
				2044	logfs_set_alias(sb, logfs_block(page), child_no);
				2045	BUG_ON((int)be32_to_cpu(se[child_no].valid) > super->s_segsize);
				2046	}
				2047	kunmap_atomic(se, KM_USER0);
				2048
				2049	logfs_put_write_page(page);
				2050	}
				2051
				2052	static void __get_segment_entry(struct logfs_segment_entry *se, long _target)
				2053	{
				2054	struct logfs_segment_entry target = (void )_target;
				2055
				2056	target = se;
				2057	}
				2058
				2059	void logfs_get_segment_entry(struct super_block *sb, u32 segno,
				2060	struct logfs_segment_entry *se)
				2061	{
				2062	logfs_mod_segment_entry(sb, segno, 0, __get_segment_entry, (long)se);
				2063	}
				2064
				2065	static void __set_segment_used(struct logfs_segment_entry *se, long increment)
				2066	{
				2067	u32 valid;
				2068
				2069	valid = be32_to_cpu(se->valid);
				2070	valid += increment;
				2071	se->valid = cpu_to_be32(valid);
				2072	}
				2073
				2074	void logfs_set_segment_used(struct super_block *sb, u64 ofs, int increment)
				2075	{
				2076	struct logfs_super *super = logfs_super(sb);
				2077	u32 segno = ofs >> super->s_segshift;
				2078
				2079	if (!increment)
				2080	return;
				2081
				2082	logfs_mod_segment_entry(sb, segno, 1, __set_segment_used, increment);
				2083	}
				2084
				2085	static void __set_segment_erased(struct logfs_segment_entry *se, long ec_level)
				2086	{
				2087	se->ec_level = cpu_to_be32(ec_level);
				2088	}
				2089
				2090	void logfs_set_segment_erased(struct super_block *sb, u32 segno, u32 ec,
				2091	gc_level_t gc_level)
				2092	{
				2093	u32 ec_level = ec << 4 \| (__force u8)gc_level;
				2094
				2095	logfs_mod_segment_entry(sb, segno, 1, __set_segment_erased, ec_level);
				2096	}
				2097
				2098	static void __set_segment_reserved(struct logfs_segment_entry *se, long ignore)
				2099	{
				2100	se->valid = cpu_to_be32(RESERVED);
				2101	}
				2102
				2103	void logfs_set_segment_reserved(struct super_block *sb, u32 segno)
				2104	{
				2105	logfs_mod_segment_entry(sb, segno, 1, __set_segment_reserved, 0);
				2106	}
				2107
				2108	static void __set_segment_unreserved(struct logfs_segment_entry *se,
				2109	long ec_level)
				2110	{
				2111	se->valid = 0;
				2112	se->ec_level = cpu_to_be32(ec_level);
				2113	}
				2114
				2115	void logfs_set_segment_unreserved(struct super_block *sb, u32 segno, u32 ec)
				2116	{
				2117	u32 ec_level = ec << 4;
				2118
				2119	logfs_mod_segment_entry(sb, segno, 1, __set_segment_unreserved,
				2120	ec_level);
				2121	}
				2122
				2123	int __logfs_write_inode(struct inode *inode, long flags)
				2124	{
				2125	struct super_block *sb = inode->i_sb;
				2126	int ret;
				2127
				2128	logfs_get_wblocks(sb, NULL, flags & WF_LOCK);
				2129	ret = do_write_inode(inode);
				2130	logfs_put_wblocks(sb, NULL, flags & WF_LOCK);
				2131	return ret;
				2132	}
				2133
				2134	static int do_delete_inode(struct inode *inode)
				2135	{
				2136	struct super_block *sb = inode->i_sb;
				2137	struct inode *master_inode = logfs_super(sb)->s_master_inode;
				2138	struct page *page;
				2139	int ret;
				2140
				2141	page = logfs_get_write_page(master_inode, inode->i_ino, 0);
				2142	if (!page)
				2143	return -ENOMEM;
				2144
				2145	move_inode_to_page(page, inode);
				2146
				2147	logfs_get_wblocks(sb, page, 1);
				2148	ret = __logfs_delete(master_inode, page);
				2149	logfs_put_wblocks(sb, page, 1);
				2150
				2151	logfs_put_write_page(page);
				2152	return ret;
				2153	}
				2154
				2155	/*
				2156	* ZOMBIE inodes have already been deleted before and should remain dead,
				2157	* if it weren't for valid checking. No need to kill them again here.
				2158	*/
				2159	void logfs_delete_inode(struct inode *inode)
				2160	{
				2161	struct logfs_inode *li = logfs_inode(inode);
				2162
				2163	if (!(li->li_flags & LOGFS_IF_ZOMBIE)) {
				2164	li->li_flags \|= LOGFS_IF_ZOMBIE;
				2165	if (i_size_read(inode) > 0)
				2166	logfs_truncate(inode, 0);
				2167	do_delete_inode(inode);
				2168	}
				2169	truncate_inode_pages(&inode->i_data, 0);
				2170	clear_inode(inode);
				2171	}
				2172
				2173	void btree_write_block(struct logfs_block *block)
				2174	{
				2175	struct inode *inode;
				2176	struct page *page;
				2177	int err, cookie;
				2178
				2179	inode = logfs_safe_iget(block->sb, block->ino, &cookie);
				2180	page = logfs_get_write_page(inode, block->bix, block->level);
				2181
				2182	err = logfs_readpage_nolock(page);
				2183	BUG_ON(err);
				2184	BUG_ON(!PagePrivate(page));
				2185	BUG_ON(logfs_block(page) != block);
				2186	err = __logfs_write_buf(inode, page, 0);
				2187	BUG_ON(err);
				2188	BUG_ON(PagePrivate(page) \|\| page->private);
				2189
				2190	logfs_put_write_page(page);
				2191	logfs_safe_iput(inode, cookie);
				2192	}
				2193
				2194	/**
				2195	* logfs_inode_write - write inode or dentry objects
				2196	*
				2197	* @inode: parent inode (ifile or directory)
				2198	* @buf: object to write (inode or dentry)
				2199	* @n: object size
				2200	* @_pos: object number (file position in blocks/objects)
				2201	* @flags: write flags
				2202	* @lock: 0 if write lock is already taken, 1 otherwise
				2203	* @shadow_tree: shadow below this inode
				2204	*
				2205	* FIXME: All caller of this put a 200-300 byte variable on the stack,
				2206	* only to call here and do a memcpy from that stack variable. A good
				2207	* example of wasted performance and stack space.
				2208	*/
				2209	int logfs_inode_write(struct inode inode, const void buf, size_t count,
				2210	loff_t bix, long flags, struct shadow_tree *shadow_tree)
				2211	{
				2212	loff_t pos = bix << inode->i_sb->s_blocksize_bits;
				2213	int err;
				2214	struct page *page;
				2215	void *pagebuf;
				2216
				2217	BUG_ON(pos & (LOGFS_BLOCKSIZE-1));
				2218	BUG_ON(count > LOGFS_BLOCKSIZE);
				2219	page = logfs_get_write_page(inode, bix, 0);
				2220	if (!page)
				2221	return -ENOMEM;
				2222
				2223	pagebuf = kmap_atomic(page, KM_USER0);
				2224	memcpy(pagebuf, buf, count);
				2225	flush_dcache_page(page);
				2226	kunmap_atomic(pagebuf, KM_USER0);
				2227
				2228	if (i_size_read(inode) < pos + LOGFS_BLOCKSIZE)
				2229	i_size_write(inode, pos + LOGFS_BLOCKSIZE);
				2230
				2231	err = logfs_write_buf(inode, page, flags);
				2232	logfs_put_write_page(page);
				2233	return err;
				2234	}
				2235
				2236	int logfs_open_segfile(struct super_block *sb)
				2237	{
				2238	struct logfs_super *super = logfs_super(sb);
				2239	struct inode *inode;
				2240
				2241	inode = logfs_read_meta_inode(sb, LOGFS_INO_SEGFILE);
				2242	if (IS_ERR(inode))
				2243	return PTR_ERR(inode);
				2244	super->s_segfile_inode = inode;
				2245	return 0;
				2246	}
				2247
				2248	int logfs_init_rw(struct super_block *sb)
				2249	{
				2250	struct logfs_super *super = logfs_super(sb);
				2251	int min_fill = 3 * super->s_no_blocks;
				2252
				2253	INIT_LIST_HEAD(&super->s_object_alias);
				2254	mutex_init(&super->s_write_mutex);
				2255	super->s_block_pool = mempool_create_kmalloc_pool(min_fill,
				2256	sizeof(struct logfs_block));
				2257	super->s_shadow_pool = mempool_create_kmalloc_pool(min_fill,
				2258	sizeof(struct logfs_shadow));
				2259	return 0;
				2260	}
				2261
				2262	void logfs_cleanup_rw(struct super_block *sb)
				2263	{
				2264	struct logfs_super *super = logfs_super(sb);
				2265
				2266	destroy_meta_inode(super->s_segfile_inode);
Joern Engel	1f1b000	2010-04-15 08:03:57 +0200	[diff] [blame]	2267	logfs_mempool_destroy(super->s_block_pool);
				2268	logfs_mempool_destroy(super->s_shadow_pool);
Joern Engel	5db53f3	2009-11-20 20:13:39 +0100	[diff] [blame]	2269	}