Blame - drivers/block/drbd/drbd_main.c - kernel/msm-5.4

blob: 106b9abdc430d7335b643b2ace25aa873b9589a7 [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	Thanks to Carter Burden, Bart Grantham and Gennadiy Nerubayev
				11	from Logicworks, Inc. for making SDP replication support possible.
				12
				13	drbd is free software; you can redistribute it and/or modify
				14	it under the terms of the GNU General Public License as published by
				15	the Free Software Foundation; either version 2, or (at your option)
				16	any later version.
				17
				18	drbd is distributed in the hope that it will be useful,
				19	but WITHOUT ANY WARRANTY; without even the implied warranty of
				20	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				21	GNU General Public License for more details.
				22
				23	You should have received a copy of the GNU General Public License
				24	along with drbd; see the file COPYING. If not, write to
				25	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				26
				27	*/
				28
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	30	#include <linux/drbd.h>
				31	#include <asm/uaccess.h>
				32	#include <asm/types.h>
				33	#include <net/sock.h>
				34	#include <linux/ctype.h>
				35	#include <linux/smp_lock.h>
				36	#include <linux/fs.h>
				37	#include <linux/file.h>
				38	#include <linux/proc_fs.h>
				39	#include <linux/init.h>
				40	#include <linux/mm.h>
				41	#include <linux/memcontrol.h>
				42	#include <linux/mm_inline.h>
				43	#include <linux/slab.h>
				44	#include <linux/random.h>
				45	#include <linux/reboot.h>
				46	#include <linux/notifier.h>
				47	#include <linux/kthread.h>
				48
				49	#define __KERNEL_SYSCALLS__
				50	#include <linux/unistd.h>
				51	#include <linux/vmalloc.h>
				52
				53	#include <linux/drbd_limits.h>
				54	#include "drbd_int.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	55	#include "drbd_req.h" /* only for _req_mod in tl_release and tl_clear */
				56
				57	#include "drbd_vli.h"
				58
				59	struct after_state_chg_work {
				60	struct drbd_work w;
				61	union drbd_state os;
				62	union drbd_state ns;
				63	enum chg_state_flags flags;
				64	struct completion *done;
				65	};
				66
				67	int drbdd_init(struct drbd_thread *);
				68	int drbd_worker(struct drbd_thread *);
				69	int drbd_asender(struct drbd_thread *);
				70
				71	int drbd_init(void);
				72	static int drbd_open(struct block_device *bdev, fmode_t mode);
				73	static int drbd_release(struct gendisk *gd, fmode_t mode);
				74	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused);
				75	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				76	union drbd_state ns, enum chg_state_flags flags);
				77	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused);
				78	static void md_sync_timer_fn(unsigned long data);
				79	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused);
				80
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	81	MODULE_AUTHOR("Philipp Reisner <phil@linbit.com>, "
				82	"Lars Ellenberg <lars@linbit.com>");
				83	MODULE_DESCRIPTION("drbd - Distributed Replicated Block Device v" REL_VERSION);
				84	MODULE_VERSION(REL_VERSION);
				85	MODULE_LICENSE("GPL");
				86	MODULE_PARM_DESC(minor_count, "Maximum number of drbd devices (1-255)");
				87	MODULE_ALIAS_BLOCKDEV_MAJOR(DRBD_MAJOR);
				88
				89	#include <linux/moduleparam.h>
				90	/* allow_open_on_secondary */
				91	MODULE_PARM_DESC(allow_oos, "DONT USE!");
				92	/* thanks to these macros, if compiled into the kernel (not-module),
				93	* this becomes the boot parameter drbd.minor_count */
				94	module_param(minor_count, uint, 0444);
				95	module_param(disable_sendpage, bool, 0644);
				96	module_param(allow_oos, bool, 0);
				97	module_param(cn_idx, uint, 0444);
				98	module_param(proc_details, int, 0644);
				99
				100	#ifdef CONFIG_DRBD_FAULT_INJECTION
				101	int enable_faults;
				102	int fault_rate;
				103	static int fault_count;
				104	int fault_devs;
				105	/* bitmap of enabled faults */
				106	module_param(enable_faults, int, 0664);
				107	/* fault rate % value - applies to all enabled faults */
				108	module_param(fault_rate, int, 0664);
				109	/* count of faults inserted */
				110	module_param(fault_count, int, 0664);
				111	/* bitmap of devices to insert faults on */
				112	module_param(fault_devs, int, 0644);
				113	#endif
				114
				115	/* module parameter, defined */
				116	unsigned int minor_count = 32;
				117	int disable_sendpage;
				118	int allow_oos;
				119	unsigned int cn_idx = CN_IDX_DRBD;
				120	int proc_details; /* Detail level in proc drbd*/
				121
				122	/* Module parameter for setting the user mode helper program
				123	* to run. Default is /sbin/drbdadm */
				124	char usermode_helper[80] = "/sbin/drbdadm";
				125
				126	module_param_string(usermode_helper, usermode_helper, sizeof(usermode_helper), 0644);
				127
				128	/* in 2.6.x, our device mapping and config info contains our virtual gendisks
				129	* as member "struct gendisk *vdisk;"
				130	*/
				131	struct drbd_conf **minor_table;
				132
				133	struct kmem_cache *drbd_request_cache;
				134	struct kmem_cache drbd_ee_cache; / epoch entries */
				135	struct kmem_cache drbd_bm_ext_cache; / bitmap extents */
				136	struct kmem_cache drbd_al_ext_cache; / activity log extents */
				137	mempool_t *drbd_request_mempool;
				138	mempool_t *drbd_ee_mempool;
				139
				140	/* I do not use a standard mempool, because:
				141	1) I want to hand out the pre-allocated objects first.
				142	2) I want to be able to interrupt sleeping allocation with a signal.
				143	Note: This is a single linked list, the next pointer is the private
				144	member of struct page.
				145	*/
				146	struct page *drbd_pp_pool;
				147	spinlock_t drbd_pp_lock;
				148	int drbd_pp_vacant;
				149	wait_queue_head_t drbd_pp_wait;
				150
				151	DEFINE_RATELIMIT_STATE(drbd_ratelimit_state, 5 * HZ, 5);
				152
Emese Revfy	7d4e9d0	2009-12-14 00:59:30 +0100	[diff] [blame]	153	static const struct block_device_operations drbd_ops = {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	154	.owner = THIS_MODULE,
				155	.open = drbd_open,
				156	.release = drbd_release,
				157	};
				158
				159	#define ARRY_SIZE(A) (sizeof(A)/sizeof(A[0]))
				160
				161	#ifdef __CHECKER__
				162	/* When checking with sparse, and this is an inline function, sparse will
				163	give tons of false positives. When this is a real functions sparse works.
				164	*/
				165	int _get_ldev_if_state(struct drbd_conf *mdev, enum drbd_disk_state mins)
				166	{
				167	int io_allowed;
				168
				169	atomic_inc(&mdev->local_cnt);
				170	io_allowed = (mdev->state.disk >= mins);
				171	if (!io_allowed) {
				172	if (atomic_dec_and_test(&mdev->local_cnt))
				173	wake_up(&mdev->misc_wait);
				174	}
				175	return io_allowed;
				176	}
				177
				178	#endif
				179
				180	/**
				181	* DOC: The transfer log
				182	*
				183	* The transfer log is a single linked list of &struct drbd_tl_epoch objects.
				184	* mdev->newest_tle points to the head, mdev->oldest_tle points to the tail
				185	* of the list. There is always at least one &struct drbd_tl_epoch object.
				186	*
				187	* Each &struct drbd_tl_epoch has a circular double linked list of requests
				188	* attached.
				189	*/
				190	static int tl_init(struct drbd_conf *mdev)
				191	{
				192	struct drbd_tl_epoch *b;
				193
				194	/* during device minor initialization, we may well use GFP_KERNEL */
				195	b = kmalloc(sizeof(struct drbd_tl_epoch), GFP_KERNEL);
				196	if (!b)
				197	return 0;
				198	INIT_LIST_HEAD(&b->requests);
				199	INIT_LIST_HEAD(&b->w.list);
				200	b->next = NULL;
				201	b->br_number = 4711;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	202	b->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	b->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				204
				205	mdev->oldest_tle = b;
				206	mdev->newest_tle = b;
				207	INIT_LIST_HEAD(&mdev->out_of_sequence_requests);
				208
				209	mdev->tl_hash = NULL;
				210	mdev->tl_hash_s = 0;
				211
				212	return 1;
				213	}
				214
				215	static void tl_cleanup(struct drbd_conf *mdev)
				216	{
				217	D_ASSERT(mdev->oldest_tle == mdev->newest_tle);
				218	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				219	kfree(mdev->oldest_tle);
				220	mdev->oldest_tle = NULL;
				221	kfree(mdev->unused_spare_tle);
				222	mdev->unused_spare_tle = NULL;
				223	kfree(mdev->tl_hash);
				224	mdev->tl_hash = NULL;
				225	mdev->tl_hash_s = 0;
				226	}
				227
				228	/**
				229	* _tl_add_barrier() - Adds a barrier to the transfer log
				230	* @mdev: DRBD device.
				231	* @new: Barrier to be added before the current head of the TL.
				232	*
				233	* The caller must hold the req_lock.
				234	*/
				235	void _tl_add_barrier(struct drbd_conf mdev, struct drbd_tl_epoch new)
				236	{
				237	struct drbd_tl_epoch *newest_before;
				238
				239	INIT_LIST_HEAD(&new->requests);
				240	INIT_LIST_HEAD(&new->w.list);
				241	new->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				242	new->next = NULL;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	243	new->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	244
				245	newest_before = mdev->newest_tle;
				246	/* never send a barrier number == 0, because that is special-cased
				247	* when using TCQ for our write ordering code */
				248	new->br_number = (newest_before->br_number+1) ?: 1;
				249	if (mdev->newest_tle != new) {
				250	mdev->newest_tle->next = new;
				251	mdev->newest_tle = new;
				252	}
				253	}
				254
				255	/**
				256	* tl_release() - Free or recycle the oldest &struct drbd_tl_epoch object of the TL
				257	* @mdev: DRBD device.
				258	* @barrier_nr: Expected identifier of the DRBD write barrier packet.
				259	* @set_size: Expected number of requests before that barrier.
				260	*
				261	* In case the passed barrier_nr or set_size does not match the oldest
				262	* &struct drbd_tl_epoch objects this function will cause a termination
				263	* of the connection.
				264	*/
				265	void tl_release(struct drbd_conf *mdev, unsigned int barrier_nr,
				266	unsigned int set_size)
				267	{
				268	struct drbd_tl_epoch b, nob; /* next old barrier */
				269	struct list_head le, tle;
				270	struct drbd_request *r;
				271
				272	spin_lock_irq(&mdev->req_lock);
				273
				274	b = mdev->oldest_tle;
				275
				276	/* first some paranoia code */
				277	if (b == NULL) {
				278	dev_err(DEV, "BAD! BarrierAck #%u received, but no epoch in tl!?\n",
				279	barrier_nr);
				280	goto bail;
				281	}
				282	if (b->br_number != barrier_nr) {
				283	dev_err(DEV, "BAD! BarrierAck #%u received, expected #%u!\n",
				284	barrier_nr, b->br_number);
				285	goto bail;
				286	}
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	287	if (b->n_writes != set_size) {
				288	dev_err(DEV, "BAD! BarrierAck #%u received with n_writes=%u, expected n_writes=%u!\n",
				289	barrier_nr, set_size, b->n_writes);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	290	goto bail;
				291	}
				292
				293	/* Clean up list of requests processed during current epoch */
				294	list_for_each_safe(le, tle, &b->requests) {
				295	r = list_entry(le, struct drbd_request, tl_requests);
				296	_req_mod(r, barrier_acked);
				297	}
				298	/* There could be requests on the list waiting for completion
				299	of the write to the local disk. To avoid corruptions of
				300	slab's data structures we have to remove the lists head.
				301
				302	Also there could have been a barrier ack out of sequence, overtaking
				303	the write acks - which would be a bug and violating write ordering.
				304	To not deadlock in case we lose connection while such requests are
				305	still pending, we need some way to find them for the
				306	_req_mode(connection_lost_while_pending).
				307
				308	These have been list_move'd to the out_of_sequence_requests list in
				309	_req_mod(, barrier_acked) above.
				310	*/
				311	list_del_init(&b->requests);
				312
				313	nob = b->next;
				314	if (test_and_clear_bit(CREATE_BARRIER, &mdev->flags)) {
				315	_tl_add_barrier(mdev, b);
				316	if (nob)
				317	mdev->oldest_tle = nob;
				318	/* if nob == NULL b was the only barrier, and becomes the new
				319	barrier. Therefore mdev->oldest_tle points already to b */
				320	} else {
				321	D_ASSERT(nob != NULL);
				322	mdev->oldest_tle = nob;
				323	kfree(b);
				324	}
				325
				326	spin_unlock_irq(&mdev->req_lock);
				327	dec_ap_pending(mdev);
				328
				329	return;
				330
				331	bail:
				332	spin_unlock_irq(&mdev->req_lock);
				333	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				334	}
				335
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	336	/**
				337	* _tl_restart() - Walks the transfer log, and applies an action to all requests
				338	* @mdev: DRBD device.
				339	* @what: The action/event to perform with all request objects
				340	*
				341	* @what might be one of connection_lost_while_pending, resend, fail_frozen_disk_io,
				342	* restart_frozen_disk_io.
				343	*/
				344	static void _tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				345	{
				346	struct drbd_tl_epoch b, tmp, **pn;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	347	struct list_head le, tle, carry_reads;
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	348	struct drbd_request *req;
				349	int rv, n_writes, n_reads;
				350
				351	b = mdev->oldest_tle;
				352	pn = &mdev->oldest_tle;
				353	while (b) {
				354	n_writes = 0;
				355	n_reads = 0;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	356	INIT_LIST_HEAD(&carry_reads);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	357	list_for_each_safe(le, tle, &b->requests) {
				358	req = list_entry(le, struct drbd_request, tl_requests);
				359	rv = _req_mod(req, what);
				360
				361	n_writes += (rv & MR_WRITE) >> MR_WRITE_SHIFT;
				362	n_reads += (rv & MR_READ) >> MR_READ_SHIFT;
				363	}
				364	tmp = b->next;
				365
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	366	if (n_writes) {
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	367	if (what == resend) {
				368	b->n_writes = n_writes;
				369	if (b->w.cb == NULL) {
				370	b->w.cb = w_send_barrier;
				371	inc_ap_pending(mdev);
				372	set_bit(CREATE_BARRIER, &mdev->flags);
				373	}
				374
				375	drbd_queue_work(&mdev->data.work, &b->w);
				376	}
				377	pn = &b->next;
				378	} else {
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	379	if (n_reads)
				380	list_add(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	381	/* there could still be requests on that ring list,
				382	* in case local io is still pending */
				383	list_del(&b->requests);
				384
				385	/* dec_ap_pending corresponding to queue_barrier.
				386	* the newest barrier may not have been queued yet,
				387	* in which case w.cb is still NULL. */
				388	if (b->w.cb != NULL)
				389	dec_ap_pending(mdev);
				390
				391	if (b == mdev->newest_tle) {
				392	/* recycle, but reinit! */
				393	D_ASSERT(tmp == NULL);
				394	INIT_LIST_HEAD(&b->requests);
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	395	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	396	INIT_LIST_HEAD(&b->w.list);
				397	b->w.cb = NULL;
				398	b->br_number = net_random();
				399	b->n_writes = 0;
				400
				401	*pn = b;
				402	break;
				403	}
				404	*pn = tmp;
				405	kfree(b);
				406	}
				407	b = tmp;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	408	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	409	}
				410	}
				411
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	412
				413	/**
				414	* tl_clear() - Clears all requests and &struct drbd_tl_epoch objects out of the TL
				415	* @mdev: DRBD device.
				416	*
				417	* This is called after the connection to the peer was lost. The storage covered
				418	* by the requests on the transfer gets marked as our of sync. Called from the
				419	* receiver thread and the worker thread.
				420	*/
				421	void tl_clear(struct drbd_conf *mdev)
				422	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	423	struct list_head le, tle;
				424	struct drbd_request *r;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	425
				426	spin_lock_irq(&mdev->req_lock);
				427
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	428	_tl_restart(mdev, connection_lost_while_pending);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	429
				430	/* we expect this list to be empty. */
				431	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				432
				433	/* but just in case, clean it up anyways! */
				434	list_for_each_safe(le, tle, &mdev->out_of_sequence_requests) {
				435	r = list_entry(le, struct drbd_request, tl_requests);
				436	/* It would be nice to complete outside of spinlock.
				437	* But this is easier for now. */
				438	_req_mod(r, connection_lost_while_pending);
				439	}
				440
				441	/* ensure bit indicating barrier is required is clear */
				442	clear_bit(CREATE_BARRIER, &mdev->flags);
				443
Philipp Reisner	288f422	2010-05-27 15:07:43 +0200	[diff] [blame]	444	memset(mdev->app_reads_hash, 0, APP_R_HSIZEsizeof(void ));
				445
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	446	spin_unlock_irq(&mdev->req_lock);
				447	}
				448
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	449	void tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				450	{
				451	spin_lock_irq(&mdev->req_lock);
				452	_tl_restart(mdev, what);
				453	spin_unlock_irq(&mdev->req_lock);
				454	}
				455
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	456	/**
				457	* cl_wide_st_chg() - TRUE if the state change is a cluster wide one
				458	* @mdev: DRBD device.
				459	* @os: old (current) state.
				460	* @ns: new (wanted) state.
				461	*/
				462	static int cl_wide_st_chg(struct drbd_conf *mdev,
				463	union drbd_state os, union drbd_state ns)
				464	{
				465	return (os.conn >= C_CONNECTED && ns.conn >= C_CONNECTED &&
				466	((os.role != R_PRIMARY && ns.role == R_PRIMARY) \|\|
				467	(os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				468	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S) \|\|
				469	(os.disk != D_DISKLESS && ns.disk == D_DISKLESS))) \|\|
				470	(os.conn >= C_CONNECTED && ns.conn == C_DISCONNECTING) \|\|
				471	(os.conn == C_CONNECTED && ns.conn == C_VERIFY_S);
				472	}
				473
				474	int drbd_change_state(struct drbd_conf *mdev, enum chg_state_flags f,
				475	union drbd_state mask, union drbd_state val)
				476	{
				477	unsigned long flags;
				478	union drbd_state os, ns;
				479	int rv;
				480
				481	spin_lock_irqsave(&mdev->req_lock, flags);
				482	os = mdev->state;
				483	ns.i = (os.i & ~mask.i) \| val.i;
				484	rv = _drbd_set_state(mdev, ns, f, NULL);
				485	ns = mdev->state;
				486	spin_unlock_irqrestore(&mdev->req_lock, flags);
				487
				488	return rv;
				489	}
				490
				491	/**
				492	* drbd_force_state() - Impose a change which happens outside our control on our state
				493	* @mdev: DRBD device.
				494	* @mask: mask of state bits to change.
				495	* @val: value of new state bits.
				496	*/
				497	void drbd_force_state(struct drbd_conf *mdev,
				498	union drbd_state mask, union drbd_state val)
				499	{
				500	drbd_change_state(mdev, CS_HARD, mask, val);
				501	}
				502
				503	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns);
				504	static int is_valid_state_transition(struct drbd_conf *,
				505	union drbd_state, union drbd_state);
				506	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
				507	union drbd_state ns, int *warn_sync_abort);
				508	int drbd_send_state_req(struct drbd_conf *,
				509	union drbd_state, union drbd_state);
				510
				511	static enum drbd_state_ret_codes _req_st_cond(struct drbd_conf *mdev,
				512	union drbd_state mask, union drbd_state val)
				513	{
				514	union drbd_state os, ns;
				515	unsigned long flags;
				516	int rv;
				517
				518	if (test_and_clear_bit(CL_ST_CHG_SUCCESS, &mdev->flags))
				519	return SS_CW_SUCCESS;
				520
				521	if (test_and_clear_bit(CL_ST_CHG_FAIL, &mdev->flags))
				522	return SS_CW_FAILED_BY_PEER;
				523
				524	rv = 0;
				525	spin_lock_irqsave(&mdev->req_lock, flags);
				526	os = mdev->state;
				527	ns.i = (os.i & ~mask.i) \| val.i;
				528	ns = sanitize_state(mdev, os, ns, NULL);
				529
				530	if (!cl_wide_st_chg(mdev, os, ns))
				531	rv = SS_CW_NO_NEED;
				532	if (!rv) {
				533	rv = is_valid_state(mdev, ns);
				534	if (rv == SS_SUCCESS) {
				535	rv = is_valid_state_transition(mdev, ns, os);
				536	if (rv == SS_SUCCESS)
				537	rv = 0; /* cont waiting, otherwise fail. */
				538	}
				539	}
				540	spin_unlock_irqrestore(&mdev->req_lock, flags);
				541
				542	return rv;
				543	}
				544
				545	/**
				546	* drbd_req_state() - Perform an eventually cluster wide state change
				547	* @mdev: DRBD device.
				548	* @mask: mask of state bits to change.
				549	* @val: value of new state bits.
				550	* @f: flags
				551	*
				552	* Should not be called directly, use drbd_request_state() or
				553	* _drbd_request_state().
				554	*/
				555	static int drbd_req_state(struct drbd_conf *mdev,
				556	union drbd_state mask, union drbd_state val,
				557	enum chg_state_flags f)
				558	{
				559	struct completion done;
				560	unsigned long flags;
				561	union drbd_state os, ns;
				562	int rv;
				563
				564	init_completion(&done);
				565
				566	if (f & CS_SERIALIZE)
				567	mutex_lock(&mdev->state_mutex);
				568
				569	spin_lock_irqsave(&mdev->req_lock, flags);
				570	os = mdev->state;
				571	ns.i = (os.i & ~mask.i) \| val.i;
				572	ns = sanitize_state(mdev, os, ns, NULL);
				573
				574	if (cl_wide_st_chg(mdev, os, ns)) {
				575	rv = is_valid_state(mdev, ns);
				576	if (rv == SS_SUCCESS)
				577	rv = is_valid_state_transition(mdev, ns, os);
				578	spin_unlock_irqrestore(&mdev->req_lock, flags);
				579
				580	if (rv < SS_SUCCESS) {
				581	if (f & CS_VERBOSE)
				582	print_st_err(mdev, os, ns, rv);
				583	goto abort;
				584	}
				585
				586	drbd_state_lock(mdev);
				587	if (!drbd_send_state_req(mdev, mask, val)) {
				588	drbd_state_unlock(mdev);
				589	rv = SS_CW_FAILED_BY_PEER;
				590	if (f & CS_VERBOSE)
				591	print_st_err(mdev, os, ns, rv);
				592	goto abort;
				593	}
				594
				595	wait_event(mdev->state_wait,
				596	(rv = _req_st_cond(mdev, mask, val)));
				597
				598	if (rv < SS_SUCCESS) {
				599	drbd_state_unlock(mdev);
				600	if (f & CS_VERBOSE)
				601	print_st_err(mdev, os, ns, rv);
				602	goto abort;
				603	}
				604	spin_lock_irqsave(&mdev->req_lock, flags);
				605	os = mdev->state;
				606	ns.i = (os.i & ~mask.i) \| val.i;
				607	rv = _drbd_set_state(mdev, ns, f, &done);
				608	drbd_state_unlock(mdev);
				609	} else {
				610	rv = _drbd_set_state(mdev, ns, f, &done);
				611	}
				612
				613	spin_unlock_irqrestore(&mdev->req_lock, flags);
				614
				615	if (f & CS_WAIT_COMPLETE && rv == SS_SUCCESS) {
				616	D_ASSERT(current != mdev->worker.task);
				617	wait_for_completion(&done);
				618	}
				619
				620	abort:
				621	if (f & CS_SERIALIZE)
				622	mutex_unlock(&mdev->state_mutex);
				623
				624	return rv;
				625	}
				626
				627	/**
				628	* _drbd_request_state() - Request a state change (with flags)
				629	* @mdev: DRBD device.
				630	* @mask: mask of state bits to change.
				631	* @val: value of new state bits.
				632	* @f: flags
				633	*
				634	* Cousin of drbd_request_state(), useful with the CS_WAIT_COMPLETE
				635	* flag, or when logging of failed state change requests is not desired.
				636	*/
				637	int _drbd_request_state(struct drbd_conf *mdev, union drbd_state mask,
				638	union drbd_state val, enum chg_state_flags f)
				639	{
				640	int rv;
				641
				642	wait_event(mdev->state_wait,
				643	(rv = drbd_req_state(mdev, mask, val, f)) != SS_IN_TRANSIENT_STATE);
				644
				645	return rv;
				646	}
				647
				648	static void print_st(struct drbd_conf mdev, char name, union drbd_state ns)
				649	{
				650	dev_err(DEV, " %s = { cs:%s ro:%s/%s ds:%s/%s %c%c%c%c }\n",
				651	name,
				652	drbd_conn_str(ns.conn),
				653	drbd_role_str(ns.role),
				654	drbd_role_str(ns.peer),
				655	drbd_disk_str(ns.disk),
				656	drbd_disk_str(ns.pdsk),
				657	ns.susp ? 's' : 'r',
				658	ns.aftr_isp ? 'a' : '-',
				659	ns.peer_isp ? 'p' : '-',
				660	ns.user_isp ? 'u' : '-'
				661	);
				662	}
				663
				664	void print_st_err(struct drbd_conf *mdev,
				665	union drbd_state os, union drbd_state ns, int err)
				666	{
				667	if (err == SS_IN_TRANSIENT_STATE)
				668	return;
				669	dev_err(DEV, "State change failed: %s\n", drbd_set_st_err_str(err));
				670	print_st(mdev, " state", os);
				671	print_st(mdev, "wanted", ns);
				672	}
				673
				674
				675	#define drbd_peer_str drbd_role_str
				676	#define drbd_pdsk_str drbd_disk_str
				677
				678	#define drbd_susp_str(A) ((A) ? "1" : "0")
				679	#define drbd_aftr_isp_str(A) ((A) ? "1" : "0")
				680	#define drbd_peer_isp_str(A) ((A) ? "1" : "0")
				681	#define drbd_user_isp_str(A) ((A) ? "1" : "0")
				682
				683	#define PSC(A) \
				684	({ if (ns.A != os.A) { \
				685	pbp += sprintf(pbp, #A "( %s -> %s ) ", \
				686	drbd_##A##_str(os.A), \
				687	drbd_##A##_str(ns.A)); \
				688	} })
				689
				690	/**
				691	* is_valid_state() - Returns an SS_ error code if ns is not valid
				692	* @mdev: DRBD device.
				693	* @ns: State to consider.
				694	*/
				695	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns)
				696	{
				697	/* See drbd_state_sw_errors in drbd_strings.c */
				698
				699	enum drbd_fencing_p fp;
				700	int rv = SS_SUCCESS;
				701
				702	fp = FP_DONT_CARE;
				703	if (get_ldev(mdev)) {
				704	fp = mdev->ldev->dc.fencing;
				705	put_ldev(mdev);
				706	}
				707
				708	if (get_net_conf(mdev)) {
				709	if (!mdev->net_conf->two_primaries &&
				710	ns.role == R_PRIMARY && ns.peer == R_PRIMARY)
				711	rv = SS_TWO_PRIMARIES;
				712	put_net_conf(mdev);
				713	}
				714
				715	if (rv <= 0)
				716	/* already found a reason to abort */;
				717	else if (ns.role == R_SECONDARY && mdev->open_cnt)
				718	rv = SS_DEVICE_IN_USE;
				719
				720	else if (ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.disk < D_UP_TO_DATE)
				721	rv = SS_NO_UP_TO_DATE_DISK;
				722
				723	else if (fp >= FP_RESOURCE &&
				724	ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk >= D_UNKNOWN)
				725	rv = SS_PRIMARY_NOP;
				726
				727	else if (ns.role == R_PRIMARY && ns.disk <= D_INCONSISTENT && ns.pdsk <= D_INCONSISTENT)
				728	rv = SS_NO_UP_TO_DATE_DISK;
				729
				730	else if (ns.conn > C_CONNECTED && ns.disk < D_INCONSISTENT)
				731	rv = SS_NO_LOCAL_DISK;
				732
				733	else if (ns.conn > C_CONNECTED && ns.pdsk < D_INCONSISTENT)
				734	rv = SS_NO_REMOTE_DISK;
				735
Lars Ellenberg	8d4ce82	2010-04-01 16:59:32 +0200	[diff] [blame]	736	else if (ns.conn > C_CONNECTED && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE)
				737	rv = SS_NO_UP_TO_DATE_DISK;
				738
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	739	else if ((ns.conn == C_CONNECTED \|\|
				740	ns.conn == C_WF_BITMAP_S \|\|
				741	ns.conn == C_SYNC_SOURCE \|\|
				742	ns.conn == C_PAUSED_SYNC_S) &&
				743	ns.disk == D_OUTDATED)
				744	rv = SS_CONNECTED_OUTDATES;
				745
				746	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				747	(mdev->sync_conf.verify_alg[0] == 0))
				748	rv = SS_NO_VERIFY_ALG;
				749
				750	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				751	mdev->agreed_pro_version < 88)
				752	rv = SS_NOT_SUPPORTED;
				753
				754	return rv;
				755	}
				756
				757	/**
				758	* is_valid_state_transition() - Returns an SS_ error code if the state transition is not possible
				759	* @mdev: DRBD device.
				760	* @ns: new state.
				761	* @os: old state.
				762	*/
				763	static int is_valid_state_transition(struct drbd_conf *mdev,
				764	union drbd_state ns, union drbd_state os)
				765	{
				766	int rv = SS_SUCCESS;
				767
				768	if ((ns.conn == C_STARTING_SYNC_T \|\| ns.conn == C_STARTING_SYNC_S) &&
				769	os.conn > C_CONNECTED)
				770	rv = SS_RESYNC_RUNNING;
				771
				772	if (ns.conn == C_DISCONNECTING && os.conn == C_STANDALONE)
				773	rv = SS_ALREADY_STANDALONE;
				774
				775	if (ns.disk > D_ATTACHING && os.disk == D_DISKLESS)
				776	rv = SS_IS_DISKLESS;
				777
				778	if (ns.conn == C_WF_CONNECTION && os.conn < C_UNCONNECTED)
				779	rv = SS_NO_NET_CONFIG;
				780
				781	if (ns.disk == D_OUTDATED && os.disk < D_OUTDATED && os.disk != D_ATTACHING)
				782	rv = SS_LOWER_THAN_OUTDATED;
				783
				784	if (ns.conn == C_DISCONNECTING && os.conn == C_UNCONNECTED)
				785	rv = SS_IN_TRANSIENT_STATE;
				786
				787	if (ns.conn == os.conn && ns.conn == C_WF_REPORT_PARAMS)
				788	rv = SS_IN_TRANSIENT_STATE;
				789
				790	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) && os.conn < C_CONNECTED)
				791	rv = SS_NEED_CONNECTION;
				792
				793	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				794	ns.conn != os.conn && os.conn > C_CONNECTED)
				795	rv = SS_RESYNC_RUNNING;
				796
				797	if ((ns.conn == C_STARTING_SYNC_S \|\| ns.conn == C_STARTING_SYNC_T) &&
				798	os.conn < C_CONNECTED)
				799	rv = SS_NEED_CONNECTION;
				800
				801	return rv;
				802	}
				803
				804	/**
				805	* sanitize_state() - Resolves implicitly necessary additional changes to a state transition
				806	* @mdev: DRBD device.
				807	* @os: old state.
				808	* @ns: new state.
				809	* @warn_sync_abort:
				810	*
				811	* When we loose connection, we have to set the state of the peers disk (pdsk)
				812	* to D_UNKNOWN. This rule and many more along those lines are in this function.
				813	*/
				814	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
				815	union drbd_state ns, int *warn_sync_abort)
				816	{
				817	enum drbd_fencing_p fp;
				818
				819	fp = FP_DONT_CARE;
				820	if (get_ldev(mdev)) {
				821	fp = mdev->ldev->dc.fencing;
				822	put_ldev(mdev);
				823	}
				824
				825	/* Disallow Network errors to configure a device's network part */
				826	if ((ns.conn >= C_TIMEOUT && ns.conn <= C_TEAR_DOWN) &&
				827	os.conn <= C_DISCONNECTING)
				828	ns.conn = os.conn;
				829
				830	/* After a network error (+C_TEAR_DOWN) only C_UNCONNECTED or C_DISCONNECTING can follow */
				831	if (os.conn >= C_TIMEOUT && os.conn <= C_TEAR_DOWN &&
				832	ns.conn != C_UNCONNECTED && ns.conn != C_DISCONNECTING)
				833	ns.conn = os.conn;
				834
				835	/* After C_DISCONNECTING only C_STANDALONE may follow */
				836	if (os.conn == C_DISCONNECTING && ns.conn != C_STANDALONE)
				837	ns.conn = os.conn;
				838
				839	if (ns.conn < C_CONNECTED) {
				840	ns.peer_isp = 0;
				841	ns.peer = R_UNKNOWN;
				842	if (ns.pdsk > D_UNKNOWN \|\| ns.pdsk < D_INCONSISTENT)
				843	ns.pdsk = D_UNKNOWN;
				844	}
				845
				846	/* Clear the aftr_isp when becoming unconfigured */
				847	if (ns.conn == C_STANDALONE && ns.disk == D_DISKLESS && ns.role == R_SECONDARY)
				848	ns.aftr_isp = 0;
				849
				850	if (ns.conn <= C_DISCONNECTING && ns.disk == D_DISKLESS)
				851	ns.pdsk = D_UNKNOWN;
				852
				853	/* Abort resync if a disk fails/detaches */
				854	if (os.conn > C_CONNECTED && ns.conn > C_CONNECTED &&
				855	(ns.disk <= D_FAILED \|\| ns.pdsk <= D_FAILED)) {
				856	if (warn_sync_abort)
				857	*warn_sync_abort = 1;
				858	ns.conn = C_CONNECTED;
				859	}
				860
				861	if (ns.conn >= C_CONNECTED &&
				862	((ns.disk == D_CONSISTENT \|\| ns.disk == D_OUTDATED) \|\|
				863	(ns.disk == D_NEGOTIATING && ns.conn == C_WF_BITMAP_T))) {
				864	switch (ns.conn) {
				865	case C_WF_BITMAP_T:
				866	case C_PAUSED_SYNC_T:
				867	ns.disk = D_OUTDATED;
				868	break;
				869	case C_CONNECTED:
				870	case C_WF_BITMAP_S:
				871	case C_SYNC_SOURCE:
				872	case C_PAUSED_SYNC_S:
				873	ns.disk = D_UP_TO_DATE;
				874	break;
				875	case C_SYNC_TARGET:
				876	ns.disk = D_INCONSISTENT;
				877	dev_warn(DEV, "Implicitly set disk state Inconsistent!\n");
				878	break;
				879	}
				880	if (os.disk == D_OUTDATED && ns.disk == D_UP_TO_DATE)
				881	dev_warn(DEV, "Implicitly set disk from Outdated to UpToDate\n");
				882	}
				883
				884	if (ns.conn >= C_CONNECTED &&
				885	(ns.pdsk == D_CONSISTENT \|\| ns.pdsk == D_OUTDATED)) {
				886	switch (ns.conn) {
				887	case C_CONNECTED:
				888	case C_WF_BITMAP_T:
				889	case C_PAUSED_SYNC_T:
				890	case C_SYNC_TARGET:
				891	ns.pdsk = D_UP_TO_DATE;
				892	break;
				893	case C_WF_BITMAP_S:
				894	case C_PAUSED_SYNC_S:
Lars Ellenberg	e0f8301	2010-04-01 15:13:19 +0200	[diff] [blame]	895	/* remap any consistent state to D_OUTDATED,
				896	* but disallow "upgrade" of not even consistent states.
				897	*/
				898	ns.pdsk =
				899	(D_DISKLESS < os.pdsk && os.pdsk < D_OUTDATED)
				900	? os.pdsk : D_OUTDATED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	901	break;
				902	case C_SYNC_SOURCE:
				903	ns.pdsk = D_INCONSISTENT;
				904	dev_warn(DEV, "Implicitly set pdsk Inconsistent!\n");
				905	break;
				906	}
				907	if (os.pdsk == D_OUTDATED && ns.pdsk == D_UP_TO_DATE)
				908	dev_warn(DEV, "Implicitly set pdsk from Outdated to UpToDate\n");
				909	}
				910
				911	/* Connection breaks down before we finished "Negotiating" */
				912	if (ns.conn < C_CONNECTED && ns.disk == D_NEGOTIATING &&
				913	get_ldev_if_state(mdev, D_NEGOTIATING)) {
				914	if (mdev->ed_uuid == mdev->ldev->md.uuid[UI_CURRENT]) {
				915	ns.disk = mdev->new_state_tmp.disk;
				916	ns.pdsk = mdev->new_state_tmp.pdsk;
				917	} else {
				918	dev_alert(DEV, "Connection lost while negotiating, no data!\n");
				919	ns.disk = D_DISKLESS;
				920	ns.pdsk = D_UNKNOWN;
				921	}
				922	put_ldev(mdev);
				923	}
				924
				925	if (fp == FP_STONITH &&
Philipp Reisner	0a49216	2009-10-21 13:08:29 +0200	[diff] [blame]	926	(ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk > D_OUTDATED) &&
				927	!(os.role == R_PRIMARY && os.conn < C_CONNECTED && os.pdsk > D_OUTDATED))
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame^]	928	ns.susp = 1; /* Suspend IO while fence-peer handler runs (peer lost) */
				929
				930	if (mdev->sync_conf.on_no_data == OND_SUSPEND_IO &&
				931	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE) &&
				932	!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE))
				933	ns.susp = 1; /* Suspend IO while no data available (no accessible data available) */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	934
				935	if (ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp) {
				936	if (ns.conn == C_SYNC_SOURCE)
				937	ns.conn = C_PAUSED_SYNC_S;
				938	if (ns.conn == C_SYNC_TARGET)
				939	ns.conn = C_PAUSED_SYNC_T;
				940	} else {
				941	if (ns.conn == C_PAUSED_SYNC_S)
				942	ns.conn = C_SYNC_SOURCE;
				943	if (ns.conn == C_PAUSED_SYNC_T)
				944	ns.conn = C_SYNC_TARGET;
				945	}
				946
				947	return ns;
				948	}
				949
				950	/* helper for __drbd_set_state */
				951	static void set_ov_position(struct drbd_conf *mdev, enum drbd_conns cs)
				952	{
				953	if (cs == C_VERIFY_T) {
				954	/* starting online verify from an arbitrary position
				955	* does not fit well into the existing protocol.
				956	* on C_VERIFY_T, we initialize ov_left and friends
				957	* implicitly in receive_DataRequest once the
				958	* first P_OV_REQUEST is received */
				959	mdev->ov_start_sector = ~(sector_t)0;
				960	} else {
				961	unsigned long bit = BM_SECT_TO_BIT(mdev->ov_start_sector);
				962	if (bit >= mdev->rs_total)
				963	mdev->ov_start_sector =
				964	BM_BIT_TO_SECT(mdev->rs_total - 1);
				965	mdev->ov_position = mdev->ov_start_sector;
				966	}
				967	}
				968
				969	/**
				970	* __drbd_set_state() - Set a new DRBD state
				971	* @mdev: DRBD device.
				972	* @ns: new state.
				973	* @flags: Flags
				974	* @done: Optional completion, that will get completed after the after_state_ch() finished
				975	*
				976	* Caller needs to hold req_lock, and global_state_lock. Do not call directly.
				977	*/
				978	int __drbd_set_state(struct drbd_conf *mdev,
				979	union drbd_state ns, enum chg_state_flags flags,
				980	struct completion *done)
				981	{
				982	union drbd_state os;
				983	int rv = SS_SUCCESS;
				984	int warn_sync_abort = 0;
				985	struct after_state_chg_work *ascw;
				986
				987	os = mdev->state;
				988
				989	ns = sanitize_state(mdev, os, ns, &warn_sync_abort);
				990
				991	if (ns.i == os.i)
				992	return SS_NOTHING_TO_DO;
				993
				994	if (!(flags & CS_HARD)) {
				995	/* pre-state-change checks ; only look at ns */
				996	/* See drbd_state_sw_errors in drbd_strings.c */
				997
				998	rv = is_valid_state(mdev, ns);
				999	if (rv < SS_SUCCESS) {
				1000	/* If the old state was illegal as well, then let
				1001	this happen...*/
				1002
				1003	if (is_valid_state(mdev, os) == rv) {
				1004	dev_err(DEV, "Considering state change from bad state. "
				1005	"Error would be: '%s'\n",
				1006	drbd_set_st_err_str(rv));
				1007	print_st(mdev, "old", os);
				1008	print_st(mdev, "new", ns);
				1009	rv = is_valid_state_transition(mdev, ns, os);
				1010	}
				1011	} else
				1012	rv = is_valid_state_transition(mdev, ns, os);
				1013	}
				1014
				1015	if (rv < SS_SUCCESS) {
				1016	if (flags & CS_VERBOSE)
				1017	print_st_err(mdev, os, ns, rv);
				1018	return rv;
				1019	}
				1020
				1021	if (warn_sync_abort)
				1022	dev_warn(DEV, "Resync aborted.\n");
				1023
				1024	{
				1025	char *pbp, pb[300];
				1026	pbp = pb;
				1027	*pbp = 0;
				1028	PSC(role);
				1029	PSC(peer);
				1030	PSC(conn);
				1031	PSC(disk);
				1032	PSC(pdsk);
				1033	PSC(susp);
				1034	PSC(aftr_isp);
				1035	PSC(peer_isp);
				1036	PSC(user_isp);
				1037	dev_info(DEV, "%s\n", pb);
				1038	}
				1039
				1040	/* solve the race between becoming unconfigured,
				1041	* worker doing the cleanup, and
				1042	* admin reconfiguring us:
				1043	* on (re)configure, first set CONFIG_PENDING,
				1044	* then wait for a potentially exiting worker,
				1045	* start the worker, and schedule one no_op.
				1046	* then proceed with configuration.
				1047	*/
				1048	if (ns.disk == D_DISKLESS &&
				1049	ns.conn == C_STANDALONE &&
				1050	ns.role == R_SECONDARY &&
				1051	!test_and_set_bit(CONFIG_PENDING, &mdev->flags))
				1052	set_bit(DEVICE_DYING, &mdev->flags);
				1053
				1054	mdev->state.i = ns.i;
				1055	wake_up(&mdev->misc_wait);
				1056	wake_up(&mdev->state_wait);
				1057
				1058	/* post-state-change actions */
				1059	if (os.conn >= C_SYNC_SOURCE && ns.conn <= C_CONNECTED) {
				1060	set_bit(STOP_SYNC_TIMER, &mdev->flags);
				1061	mod_timer(&mdev->resync_timer, jiffies);
				1062	}
				1063
				1064	/* aborted verify run. log the last position */
				1065	if ((os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) &&
				1066	ns.conn < C_CONNECTED) {
				1067	mdev->ov_start_sector =
				1068	BM_BIT_TO_SECT(mdev->rs_total - mdev->ov_left);
				1069	dev_info(DEV, "Online Verify reached sector %llu\n",
				1070	(unsigned long long)mdev->ov_start_sector);
				1071	}
				1072
				1073	if ((os.conn == C_PAUSED_SYNC_T \|\| os.conn == C_PAUSED_SYNC_S) &&
				1074	(ns.conn == C_SYNC_TARGET \|\| ns.conn == C_SYNC_SOURCE)) {
				1075	dev_info(DEV, "Syncer continues.\n");
				1076	mdev->rs_paused += (long)jiffies-(long)mdev->rs_mark_time;
				1077	if (ns.conn == C_SYNC_TARGET) {
				1078	if (!test_and_clear_bit(STOP_SYNC_TIMER, &mdev->flags))
				1079	mod_timer(&mdev->resync_timer, jiffies);
				1080	/* This if (!test_bit) is only needed for the case
				1081	that a device that has ceased to used its timer,
				1082	i.e. it is already in drbd_resync_finished() gets
				1083	paused and resumed. */
				1084	}
				1085	}
				1086
				1087	if ((os.conn == C_SYNC_TARGET \|\| os.conn == C_SYNC_SOURCE) &&
				1088	(ns.conn == C_PAUSED_SYNC_T \|\| ns.conn == C_PAUSED_SYNC_S)) {
				1089	dev_info(DEV, "Resync suspended\n");
				1090	mdev->rs_mark_time = jiffies;
				1091	if (ns.conn == C_PAUSED_SYNC_T)
				1092	set_bit(STOP_SYNC_TIMER, &mdev->flags);
				1093	}
				1094
				1095	if (os.conn == C_CONNECTED &&
				1096	(ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T)) {
				1097	mdev->ov_position = 0;
				1098	mdev->rs_total =
				1099	mdev->rs_mark_left = drbd_bm_bits(mdev);
				1100	if (mdev->agreed_pro_version >= 90)
				1101	set_ov_position(mdev, ns.conn);
				1102	else
				1103	mdev->ov_start_sector = 0;
				1104	mdev->ov_left = mdev->rs_total
				1105	- BM_SECT_TO_BIT(mdev->ov_position);
				1106	mdev->rs_start =
				1107	mdev->rs_mark_time = jiffies;
				1108	mdev->ov_last_oos_size = 0;
				1109	mdev->ov_last_oos_start = 0;
				1110
				1111	if (ns.conn == C_VERIFY_S) {
				1112	dev_info(DEV, "Starting Online Verify from sector %llu\n",
				1113	(unsigned long long)mdev->ov_position);
				1114	mod_timer(&mdev->resync_timer, jiffies);
				1115	}
				1116	}
				1117
				1118	if (get_ldev(mdev)) {
				1119	u32 mdf = mdev->ldev->md.flags & ~(MDF_CONSISTENT\|MDF_PRIMARY_IND\|
				1120	MDF_CONNECTED_IND\|MDF_WAS_UP_TO_DATE\|
				1121	MDF_PEER_OUT_DATED\|MDF_CRASHED_PRIMARY);
				1122
				1123	if (test_bit(CRASHED_PRIMARY, &mdev->flags))
				1124	mdf \|= MDF_CRASHED_PRIMARY;
				1125	if (mdev->state.role == R_PRIMARY \|\|
				1126	(mdev->state.pdsk < D_INCONSISTENT && mdev->state.peer == R_PRIMARY))
				1127	mdf \|= MDF_PRIMARY_IND;
				1128	if (mdev->state.conn > C_WF_REPORT_PARAMS)
				1129	mdf \|= MDF_CONNECTED_IND;
				1130	if (mdev->state.disk > D_INCONSISTENT)
				1131	mdf \|= MDF_CONSISTENT;
				1132	if (mdev->state.disk > D_OUTDATED)
				1133	mdf \|= MDF_WAS_UP_TO_DATE;
				1134	if (mdev->state.pdsk <= D_OUTDATED && mdev->state.pdsk >= D_INCONSISTENT)
				1135	mdf \|= MDF_PEER_OUT_DATED;
				1136	if (mdf != mdev->ldev->md.flags) {
				1137	mdev->ldev->md.flags = mdf;
				1138	drbd_md_mark_dirty(mdev);
				1139	}
				1140	if (os.disk < D_CONSISTENT && ns.disk >= D_CONSISTENT)
				1141	drbd_set_ed_uuid(mdev, mdev->ldev->md.uuid[UI_CURRENT]);
				1142	put_ldev(mdev);
				1143	}
				1144
				1145	/* Peer was forced D_UP_TO_DATE & R_PRIMARY, consider to resync */
				1146	if (os.disk == D_INCONSISTENT && os.pdsk == D_INCONSISTENT &&
				1147	os.peer == R_SECONDARY && ns.peer == R_PRIMARY)
				1148	set_bit(CONSIDER_RESYNC, &mdev->flags);
				1149
				1150	/* Receiver should clean up itself */
				1151	if (os.conn != C_DISCONNECTING && ns.conn == C_DISCONNECTING)
				1152	drbd_thread_stop_nowait(&mdev->receiver);
				1153
				1154	/* Now the receiver finished cleaning up itself, it should die */
				1155	if (os.conn != C_STANDALONE && ns.conn == C_STANDALONE)
				1156	drbd_thread_stop_nowait(&mdev->receiver);
				1157
				1158	/* Upon network failure, we need to restart the receiver. */
				1159	if (os.conn > C_TEAR_DOWN &&
				1160	ns.conn <= C_TEAR_DOWN && ns.conn >= C_TIMEOUT)
				1161	drbd_thread_restart_nowait(&mdev->receiver);
				1162
				1163	ascw = kmalloc(sizeof(*ascw), GFP_ATOMIC);
				1164	if (ascw) {
				1165	ascw->os = os;
				1166	ascw->ns = ns;
				1167	ascw->flags = flags;
				1168	ascw->w.cb = w_after_state_ch;
				1169	ascw->done = done;
				1170	drbd_queue_work(&mdev->data.work, &ascw->w);
				1171	} else {
				1172	dev_warn(DEV, "Could not kmalloc an ascw\n");
				1173	}
				1174
				1175	return rv;
				1176	}
				1177
				1178	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused)
				1179	{
				1180	struct after_state_chg_work *ascw =
				1181	container_of(w, struct after_state_chg_work, w);
				1182	after_state_ch(mdev, ascw->os, ascw->ns, ascw->flags);
				1183	if (ascw->flags & CS_WAIT_COMPLETE) {
				1184	D_ASSERT(ascw->done != NULL);
				1185	complete(ascw->done);
				1186	}
				1187	kfree(ascw);
				1188
				1189	return 1;
				1190	}
				1191
				1192	static void abw_start_sync(struct drbd_conf *mdev, int rv)
				1193	{
				1194	if (rv) {
				1195	dev_err(DEV, "Writing the bitmap failed not starting resync.\n");
				1196	_drbd_request_state(mdev, NS(conn, C_CONNECTED), CS_VERBOSE);
				1197	return;
				1198	}
				1199
				1200	switch (mdev->state.conn) {
				1201	case C_STARTING_SYNC_T:
				1202	_drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
				1203	break;
				1204	case C_STARTING_SYNC_S:
				1205	drbd_start_resync(mdev, C_SYNC_SOURCE);
				1206	break;
				1207	}
				1208	}
				1209
				1210	/**
				1211	* after_state_ch() - Perform after state change actions that may sleep
				1212	* @mdev: DRBD device.
				1213	* @os: old state.
				1214	* @ns: new state.
				1215	* @flags: Flags
				1216	*/
				1217	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				1218	union drbd_state ns, enum chg_state_flags flags)
				1219	{
				1220	enum drbd_fencing_p fp;
				1221
				1222	if (os.conn != C_CONNECTED && ns.conn == C_CONNECTED) {
				1223	clear_bit(CRASHED_PRIMARY, &mdev->flags);
				1224	if (mdev->p_uuid)
				1225	mdev->p_uuid[UI_FLAGS] &= ~((u64)2);
				1226	}
				1227
				1228	fp = FP_DONT_CARE;
				1229	if (get_ldev(mdev)) {
				1230	fp = mdev->ldev->dc.fencing;
				1231	put_ldev(mdev);
				1232	}
				1233
				1234	/* Inform userspace about the change... */
				1235	drbd_bcast_state(mdev, ns);
				1236
				1237	if (!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE) &&
				1238	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE))
				1239	drbd_khelper(mdev, "pri-on-incon-degr");
				1240
				1241	/* Here we have the actions that are performed after a
				1242	state change. This function might sleep */
				1243
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame^]	1244	if (os.susp && ns.susp && mdev->sync_conf.on_no_data == OND_SUSPEND_IO) {
				1245	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
				1246	if (ns.conn == C_CONNECTED) {
				1247	spin_lock_irq(&mdev->req_lock);
				1248	_tl_restart(mdev, resend);
				1249	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1250	spin_unlock_irq(&mdev->req_lock);
				1251	} else /* ns.conn > C_CONNECTED */
				1252	dev_err(DEV, "Unexpected Resynd going on!\n");
				1253	}
				1254
				1255	if (os.disk == D_ATTACHING && ns.disk > D_ATTACHING) {
				1256	spin_lock_irq(&mdev->req_lock);
				1257	_tl_restart(mdev, restart_frozen_disk_io);
				1258	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1259	spin_unlock_irq(&mdev->req_lock);
				1260	}
				1261	}
				1262
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1263	if (fp == FP_STONITH && ns.susp) {
				1264	/* case1: The outdate peer handler is successful:
				1265	* case2: The connection was established again: */
				1266	if ((os.pdsk > D_OUTDATED && ns.pdsk <= D_OUTDATED) \|\|
				1267	(os.conn < C_CONNECTED && ns.conn >= C_CONNECTED)) {
				1268	tl_clear(mdev);
				1269	spin_lock_irq(&mdev->req_lock);
				1270	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1271	spin_unlock_irq(&mdev->req_lock);
				1272	}
				1273	}
				1274	/* Do not change the order of the if above and the two below... */
				1275	if (os.pdsk == D_DISKLESS && ns.pdsk > D_DISKLESS) { /* attach on the peer */
				1276	drbd_send_uuids(mdev);
				1277	drbd_send_state(mdev);
				1278	}
				1279	if (os.conn != C_WF_BITMAP_S && ns.conn == C_WF_BITMAP_S)
				1280	drbd_queue_bitmap_io(mdev, &drbd_send_bitmap, NULL, "send_bitmap (WFBitMapS)");
				1281
				1282	/* Lost contact to peer's copy of the data */
				1283	if ((os.pdsk >= D_INCONSISTENT &&
				1284	os.pdsk != D_UNKNOWN &&
				1285	os.pdsk != D_OUTDATED)
				1286	&& (ns.pdsk < D_INCONSISTENT \|\|
				1287	ns.pdsk == D_UNKNOWN \|\|
				1288	ns.pdsk == D_OUTDATED)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1289	if (get_ldev(mdev)) {
				1290	if ((ns.role == R_PRIMARY \|\| ns.peer == R_PRIMARY) &&
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1291	mdev->ldev->md.uuid[UI_BITMAP] == 0 && ns.disk >= D_UP_TO_DATE) {
				1292	drbd_uuid_new_current(mdev);
				1293	drbd_send_uuids(mdev);
				1294	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1295	put_ldev(mdev);
				1296	}
				1297	}
				1298
				1299	if (ns.pdsk < D_INCONSISTENT && get_ldev(mdev)) {
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1300	if (ns.peer == R_PRIMARY && mdev->ldev->md.uuid[UI_BITMAP] == 0)
				1301	drbd_uuid_new_current(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1302
				1303	/* D_DISKLESS Peer becomes secondary */
				1304	if (os.peer == R_PRIMARY && ns.peer == R_SECONDARY)
				1305	drbd_al_to_on_disk_bm(mdev);
				1306	put_ldev(mdev);
				1307	}
				1308
				1309	/* Last part of the attaching process ... */
				1310	if (ns.conn >= C_CONNECTED &&
				1311	os.disk == D_ATTACHING && ns.disk == D_NEGOTIATING) {
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1312	drbd_send_sizes(mdev, 0, 0); /* to start sync... */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1313	drbd_send_uuids(mdev);
				1314	drbd_send_state(mdev);
				1315	}
				1316
				1317	/* We want to pause/continue resync, tell peer. */
				1318	if (ns.conn >= C_CONNECTED &&
				1319	((os.aftr_isp != ns.aftr_isp) \|\|
				1320	(os.user_isp != ns.user_isp)))
				1321	drbd_send_state(mdev);
				1322
				1323	/* In case one of the isp bits got set, suspend other devices. */
				1324	if ((!os.aftr_isp && !os.peer_isp && !os.user_isp) &&
				1325	(ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp))
				1326	suspend_other_sg(mdev);
				1327
				1328	/* Make sure the peer gets informed about eventual state
				1329	changes (ISP bits) while we were in WFReportParams. */
				1330	if (os.conn == C_WF_REPORT_PARAMS && ns.conn >= C_CONNECTED)
				1331	drbd_send_state(mdev);
				1332
				1333	/* We are in the progress to start a full sync... */
				1334	if ((os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				1335	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S))
				1336	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, &abw_start_sync, "set_n_write from StartingSync");
				1337
				1338	/* We are invalidating our self... */
				1339	if (os.conn < C_CONNECTED && ns.conn < C_CONNECTED &&
				1340	os.disk > D_INCONSISTENT && ns.disk == D_INCONSISTENT)
				1341	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, NULL, "set_n_write from invalidate");
				1342
				1343	if (os.disk > D_FAILED && ns.disk == D_FAILED) {
				1344	enum drbd_io_error_p eh;
				1345
				1346	eh = EP_PASS_ON;
				1347	if (get_ldev_if_state(mdev, D_FAILED)) {
				1348	eh = mdev->ldev->dc.on_io_error;
				1349	put_ldev(mdev);
				1350	}
				1351
				1352	drbd_rs_cancel_all(mdev);
				1353	/* since get_ldev() only works as long as disk>=D_INCONSISTENT,
				1354	and it is D_DISKLESS here, local_cnt can only go down, it can
				1355	not increase... It will reach zero */
				1356	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
				1357	mdev->rs_total = 0;
				1358	mdev->rs_failed = 0;
				1359	atomic_set(&mdev->rs_pending_cnt, 0);
				1360
				1361	spin_lock_irq(&mdev->req_lock);
				1362	_drbd_set_state(_NS(mdev, disk, D_DISKLESS), CS_HARD, NULL);
				1363	spin_unlock_irq(&mdev->req_lock);
				1364
				1365	if (eh == EP_CALL_HELPER)
				1366	drbd_khelper(mdev, "local-io-error");
				1367	}
				1368
				1369	if (os.disk > D_DISKLESS && ns.disk == D_DISKLESS) {
				1370
				1371	if (os.disk == D_FAILED) /* && ns.disk == D_DISKLESS*/ {
				1372	if (drbd_send_state(mdev))
				1373	dev_warn(DEV, "Notified peer that my disk is broken.\n");
				1374	else
				1375	dev_err(DEV, "Sending state in drbd_io_error() failed\n");
				1376	}
				1377
Philipp Reisner	0a6dbf2	2009-12-28 16:58:38 +0100	[diff] [blame]	1378	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1379	lc_destroy(mdev->resync);
				1380	mdev->resync = NULL;
				1381	lc_destroy(mdev->act_log);
				1382	mdev->act_log = NULL;
				1383	__no_warn(local,
				1384	drbd_free_bc(mdev->ldev);
				1385	mdev->ldev = NULL;);
				1386
				1387	if (mdev->md_io_tmpp)
				1388	__free_page(mdev->md_io_tmpp);
				1389	}
				1390
				1391	/* Disks got bigger while they were detached */
				1392	if (ns.disk > D_NEGOTIATING && ns.pdsk > D_NEGOTIATING &&
				1393	test_and_clear_bit(RESYNC_AFTER_NEG, &mdev->flags)) {
				1394	if (ns.conn == C_CONNECTED)
				1395	resync_after_online_grow(mdev);
				1396	}
				1397
				1398	/* A resync finished or aborted, wake paused devices... */
				1399	if ((os.conn > C_CONNECTED && ns.conn <= C_CONNECTED) \|\|
				1400	(os.peer_isp && !ns.peer_isp) \|\|
				1401	(os.user_isp && !ns.user_isp))
				1402	resume_next_sg(mdev);
				1403
				1404	/* Upon network connection, we need to start the receiver */
				1405	if (os.conn == C_STANDALONE && ns.conn == C_UNCONNECTED)
				1406	drbd_thread_start(&mdev->receiver);
				1407
				1408	/* Terminate worker thread if we are unconfigured - it will be
				1409	restarted as needed... */
				1410	if (ns.disk == D_DISKLESS &&
				1411	ns.conn == C_STANDALONE &&
				1412	ns.role == R_SECONDARY) {
				1413	if (os.aftr_isp != ns.aftr_isp)
				1414	resume_next_sg(mdev);
				1415	/* set in __drbd_set_state, unless CONFIG_PENDING was set */
				1416	if (test_bit(DEVICE_DYING, &mdev->flags))
				1417	drbd_thread_stop_nowait(&mdev->worker);
				1418	}
				1419
				1420	drbd_md_sync(mdev);
				1421	}
				1422
				1423
				1424	static int drbd_thread_setup(void *arg)
				1425	{
				1426	struct drbd_thread thi = (struct drbd_thread ) arg;
				1427	struct drbd_conf *mdev = thi->mdev;
				1428	unsigned long flags;
				1429	int retval;
				1430
				1431	restart:
				1432	retval = thi->function(thi);
				1433
				1434	spin_lock_irqsave(&thi->t_lock, flags);
				1435
				1436	/* if the receiver has been "Exiting", the last thing it did
				1437	* was set the conn state to "StandAlone",
				1438	* if now a re-connect request comes in, conn state goes C_UNCONNECTED,
				1439	* and receiver thread will be "started".
				1440	* drbd_thread_start needs to set "Restarting" in that case.
				1441	* t_state check and assignment needs to be within the same spinlock,
				1442	* so either thread_start sees Exiting, and can remap to Restarting,
				1443	* or thread_start see None, and can proceed as normal.
				1444	*/
				1445
				1446	if (thi->t_state == Restarting) {
				1447	dev_info(DEV, "Restarting %s\n", current->comm);
				1448	thi->t_state = Running;
				1449	spin_unlock_irqrestore(&thi->t_lock, flags);
				1450	goto restart;
				1451	}
				1452
				1453	thi->task = NULL;
				1454	thi->t_state = None;
				1455	smp_mb();
				1456	complete(&thi->stop);
				1457	spin_unlock_irqrestore(&thi->t_lock, flags);
				1458
				1459	dev_info(DEV, "Terminating %s\n", current->comm);
				1460
				1461	/* Release mod reference taken when thread was started */
				1462	module_put(THIS_MODULE);
				1463	return retval;
				1464	}
				1465
				1466	static void drbd_thread_init(struct drbd_conf mdev, struct drbd_thread thi,
				1467	int (func) (struct drbd_thread ))
				1468	{
				1469	spin_lock_init(&thi->t_lock);
				1470	thi->task = NULL;
				1471	thi->t_state = None;
				1472	thi->function = func;
				1473	thi->mdev = mdev;
				1474	}
				1475
				1476	int drbd_thread_start(struct drbd_thread *thi)
				1477	{
				1478	struct drbd_conf *mdev = thi->mdev;
				1479	struct task_struct *nt;
				1480	unsigned long flags;
				1481
				1482	const char *me =
				1483	thi == &mdev->receiver ? "receiver" :
				1484	thi == &mdev->asender ? "asender" :
				1485	thi == &mdev->worker ? "worker" : "NONSENSE";
				1486
				1487	/* is used from state engine doing drbd_thread_stop_nowait,
				1488	* while holding the req lock irqsave */
				1489	spin_lock_irqsave(&thi->t_lock, flags);
				1490
				1491	switch (thi->t_state) {
				1492	case None:
				1493	dev_info(DEV, "Starting %s thread (from %s [%d])\n",
				1494	me, current->comm, current->pid);
				1495
				1496	/* Get ref on module for thread - this is released when thread exits */
				1497	if (!try_module_get(THIS_MODULE)) {
				1498	dev_err(DEV, "Failed to get module reference in drbd_thread_start\n");
				1499	spin_unlock_irqrestore(&thi->t_lock, flags);
				1500	return FALSE;
				1501	}
				1502
				1503	init_completion(&thi->stop);
				1504	D_ASSERT(thi->task == NULL);
				1505	thi->reset_cpu_mask = 1;
				1506	thi->t_state = Running;
				1507	spin_unlock_irqrestore(&thi->t_lock, flags);
				1508	flush_signals(current); /* otherw. may get -ERESTARTNOINTR */
				1509
				1510	nt = kthread_create(drbd_thread_setup, (void *) thi,
				1511	"drbd%d_%s", mdev_to_minor(mdev), me);
				1512
				1513	if (IS_ERR(nt)) {
				1514	dev_err(DEV, "Couldn't start thread\n");
				1515
				1516	module_put(THIS_MODULE);
				1517	return FALSE;
				1518	}
				1519	spin_lock_irqsave(&thi->t_lock, flags);
				1520	thi->task = nt;
				1521	thi->t_state = Running;
				1522	spin_unlock_irqrestore(&thi->t_lock, flags);
				1523	wake_up_process(nt);
				1524	break;
				1525	case Exiting:
				1526	thi->t_state = Restarting;
				1527	dev_info(DEV, "Restarting %s thread (from %s [%d])\n",
				1528	me, current->comm, current->pid);
				1529	/* fall through */
				1530	case Running:
				1531	case Restarting:
				1532	default:
				1533	spin_unlock_irqrestore(&thi->t_lock, flags);
				1534	break;
				1535	}
				1536
				1537	return TRUE;
				1538	}
				1539
				1540
				1541	void _drbd_thread_stop(struct drbd_thread *thi, int restart, int wait)
				1542	{
				1543	unsigned long flags;
				1544
				1545	enum drbd_thread_state ns = restart ? Restarting : Exiting;
				1546
				1547	/* may be called from state engine, holding the req lock irqsave */
				1548	spin_lock_irqsave(&thi->t_lock, flags);
				1549
				1550	if (thi->t_state == None) {
				1551	spin_unlock_irqrestore(&thi->t_lock, flags);
				1552	if (restart)
				1553	drbd_thread_start(thi);
				1554	return;
				1555	}
				1556
				1557	if (thi->t_state != ns) {
				1558	if (thi->task == NULL) {
				1559	spin_unlock_irqrestore(&thi->t_lock, flags);
				1560	return;
				1561	}
				1562
				1563	thi->t_state = ns;
				1564	smp_mb();
				1565	init_completion(&thi->stop);
				1566	if (thi->task != current)
				1567	force_sig(DRBD_SIGKILL, thi->task);
				1568
				1569	}
				1570
				1571	spin_unlock_irqrestore(&thi->t_lock, flags);
				1572
				1573	if (wait)
				1574	wait_for_completion(&thi->stop);
				1575	}
				1576
				1577	#ifdef CONFIG_SMP
				1578	/**
				1579	* drbd_calc_cpu_mask() - Generate CPU masks, spread over all CPUs
				1580	* @mdev: DRBD device.
				1581	*
				1582	* Forces all threads of a device onto the same CPU. This is beneficial for
				1583	* DRBD's performance. May be overwritten by user's configuration.
				1584	*/
				1585	void drbd_calc_cpu_mask(struct drbd_conf *mdev)
				1586	{
				1587	int ord, cpu;
				1588
				1589	/* user override. */
				1590	if (cpumask_weight(mdev->cpu_mask))
				1591	return;
				1592
				1593	ord = mdev_to_minor(mdev) % cpumask_weight(cpu_online_mask);
				1594	for_each_online_cpu(cpu) {
				1595	if (ord-- == 0) {
				1596	cpumask_set_cpu(cpu, mdev->cpu_mask);
				1597	return;
				1598	}
				1599	}
				1600	/* should not be reached */
				1601	cpumask_setall(mdev->cpu_mask);
				1602	}
				1603
				1604	/**
				1605	* drbd_thread_current_set_cpu() - modifies the cpu mask of the _current_ thread
				1606	* @mdev: DRBD device.
				1607	*
				1608	* call in the "main loop" of _all_ threads, no need for any mutex, current won't die
				1609	* prematurely.
				1610	*/
				1611	void drbd_thread_current_set_cpu(struct drbd_conf *mdev)
				1612	{
				1613	struct task_struct *p = current;
				1614	struct drbd_thread *thi =
				1615	p == mdev->asender.task ? &mdev->asender :
				1616	p == mdev->receiver.task ? &mdev->receiver :
				1617	p == mdev->worker.task ? &mdev->worker :
				1618	NULL;
				1619	ERR_IF(thi == NULL)
				1620	return;
				1621	if (!thi->reset_cpu_mask)
				1622	return;
				1623	thi->reset_cpu_mask = 0;
				1624	set_cpus_allowed_ptr(p, mdev->cpu_mask);
				1625	}
				1626	#endif
				1627
				1628	/* the appropriate socket mutex must be held already */
				1629	int _drbd_send_cmd(struct drbd_conf mdev, struct socket sock,
				1630	enum drbd_packets cmd, struct p_header *h,
				1631	size_t size, unsigned msg_flags)
				1632	{
				1633	int sent, ok;
				1634
				1635	ERR_IF(!h) return FALSE;
				1636	ERR_IF(!size) return FALSE;
				1637
				1638	h->magic = BE_DRBD_MAGIC;
				1639	h->command = cpu_to_be16(cmd);
				1640	h->length = cpu_to_be16(size-sizeof(struct p_header));
				1641
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1642	sent = drbd_send(mdev, sock, h, size, msg_flags);
				1643
				1644	ok = (sent == size);
				1645	if (!ok)
				1646	dev_err(DEV, "short sent %s size=%d sent=%d\n",
				1647	cmdname(cmd), (int)size, sent);
				1648	return ok;
				1649	}
				1650
				1651	/* don't pass the socket. we may only look at it
				1652	* when we hold the appropriate socket mutex.
				1653	*/
				1654	int drbd_send_cmd(struct drbd_conf *mdev, int use_data_socket,
				1655	enum drbd_packets cmd, struct p_header *h, size_t size)
				1656	{
				1657	int ok = 0;
				1658	struct socket *sock;
				1659
				1660	if (use_data_socket) {
				1661	mutex_lock(&mdev->data.mutex);
				1662	sock = mdev->data.socket;
				1663	} else {
				1664	mutex_lock(&mdev->meta.mutex);
				1665	sock = mdev->meta.socket;
				1666	}
				1667
				1668	/* drbd_disconnect() could have called drbd_free_sock()
				1669	* while we were waiting in down()... */
				1670	if (likely(sock != NULL))
				1671	ok = _drbd_send_cmd(mdev, sock, cmd, h, size, 0);
				1672
				1673	if (use_data_socket)
				1674	mutex_unlock(&mdev->data.mutex);
				1675	else
				1676	mutex_unlock(&mdev->meta.mutex);
				1677	return ok;
				1678	}
				1679
				1680	int drbd_send_cmd2(struct drbd_conf mdev, enum drbd_packets cmd, char data,
				1681	size_t size)
				1682	{
				1683	struct p_header h;
				1684	int ok;
				1685
				1686	h.magic = BE_DRBD_MAGIC;
				1687	h.command = cpu_to_be16(cmd);
				1688	h.length = cpu_to_be16(size);
				1689
				1690	if (!drbd_get_data_sock(mdev))
				1691	return 0;
				1692
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1693	ok = (sizeof(h) ==
				1694	drbd_send(mdev, mdev->data.socket, &h, sizeof(h), 0));
				1695	ok = ok && (size ==
				1696	drbd_send(mdev, mdev->data.socket, data, size, 0));
				1697
				1698	drbd_put_data_sock(mdev);
				1699
				1700	return ok;
				1701	}
				1702
				1703	int drbd_send_sync_param(struct drbd_conf mdev, struct syncer_conf sc)
				1704	{
				1705	struct p_rs_param_89 *p;
				1706	struct socket *sock;
				1707	int size, rv;
				1708	const int apv = mdev->agreed_pro_version;
				1709
				1710	size = apv <= 87 ? sizeof(struct p_rs_param)
				1711	: apv == 88 ? sizeof(struct p_rs_param)
				1712	+ strlen(mdev->sync_conf.verify_alg) + 1
				1713	: /* 89 */ sizeof(struct p_rs_param_89);
				1714
				1715	/* used from admin command context and receiver/worker context.
				1716	* to avoid kmalloc, grab the socket right here,
				1717	* then use the pre-allocated sbuf there */
				1718	mutex_lock(&mdev->data.mutex);
				1719	sock = mdev->data.socket;
				1720
				1721	if (likely(sock != NULL)) {
				1722	enum drbd_packets cmd = apv >= 89 ? P_SYNC_PARAM89 : P_SYNC_PARAM;
				1723
				1724	p = &mdev->data.sbuf.rs_param_89;
				1725
				1726	/* initialize verify_alg and csums_alg */
				1727	memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
				1728
				1729	p->rate = cpu_to_be32(sc->rate);
				1730
				1731	if (apv >= 88)
				1732	strcpy(p->verify_alg, mdev->sync_conf.verify_alg);
				1733	if (apv >= 89)
				1734	strcpy(p->csums_alg, mdev->sync_conf.csums_alg);
				1735
				1736	rv = _drbd_send_cmd(mdev, sock, cmd, &p->head, size, 0);
				1737	} else
				1738	rv = 0; /* not ok */
				1739
				1740	mutex_unlock(&mdev->data.mutex);
				1741
				1742	return rv;
				1743	}
				1744
				1745	int drbd_send_protocol(struct drbd_conf *mdev)
				1746	{
				1747	struct p_protocol *p;
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1748	int size, cf, rv;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1749
				1750	size = sizeof(struct p_protocol);
				1751
				1752	if (mdev->agreed_pro_version >= 87)
				1753	size += strlen(mdev->net_conf->integrity_alg) + 1;
				1754
				1755	/* we must not recurse into our own queue,
				1756	* as that is blocked during handshake */
				1757	p = kmalloc(size, GFP_NOIO);
				1758	if (p == NULL)
				1759	return 0;
				1760
				1761	p->protocol = cpu_to_be32(mdev->net_conf->wire_protocol);
				1762	p->after_sb_0p = cpu_to_be32(mdev->net_conf->after_sb_0p);
				1763	p->after_sb_1p = cpu_to_be32(mdev->net_conf->after_sb_1p);
				1764	p->after_sb_2p = cpu_to_be32(mdev->net_conf->after_sb_2p);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1765	p->two_primaries = cpu_to_be32(mdev->net_conf->two_primaries);
				1766
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1767	cf = 0;
				1768	if (mdev->net_conf->want_lose)
				1769	cf \|= CF_WANT_LOSE;
				1770	if (mdev->net_conf->dry_run) {
				1771	if (mdev->agreed_pro_version >= 92)
				1772	cf \|= CF_DRY_RUN;
				1773	else {
				1774	dev_err(DEV, "--dry-run is not supported by peer");
Dan Carpenter	7ac314c	2010-04-22 14:27:23 +0200	[diff] [blame]	1775	kfree(p);
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1776	return 0;
				1777	}
				1778	}
				1779	p->conn_flags = cpu_to_be32(cf);
				1780
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1781	if (mdev->agreed_pro_version >= 87)
				1782	strcpy(p->integrity_alg, mdev->net_conf->integrity_alg);
				1783
				1784	rv = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_PROTOCOL,
				1785	(struct p_header *)p, size);
				1786	kfree(p);
				1787	return rv;
				1788	}
				1789
				1790	int _drbd_send_uuids(struct drbd_conf *mdev, u64 uuid_flags)
				1791	{
				1792	struct p_uuids p;
				1793	int i;
				1794
				1795	if (!get_ldev_if_state(mdev, D_NEGOTIATING))
				1796	return 1;
				1797
				1798	for (i = UI_CURRENT; i < UI_SIZE; i++)
				1799	p.uuid[i] = mdev->ldev ? cpu_to_be64(mdev->ldev->md.uuid[i]) : 0;
				1800
				1801	mdev->comm_bm_set = drbd_bm_total_weight(mdev);
				1802	p.uuid[UI_SIZE] = cpu_to_be64(mdev->comm_bm_set);
				1803	uuid_flags \|= mdev->net_conf->want_lose ? 1 : 0;
				1804	uuid_flags \|= test_bit(CRASHED_PRIMARY, &mdev->flags) ? 2 : 0;
				1805	uuid_flags \|= mdev->new_state_tmp.disk == D_INCONSISTENT ? 4 : 0;
				1806	p.uuid[UI_FLAGS] = cpu_to_be64(uuid_flags);
				1807
				1808	put_ldev(mdev);
				1809
				1810	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_UUIDS,
				1811	(struct p_header *)&p, sizeof(p));
				1812	}
				1813
				1814	int drbd_send_uuids(struct drbd_conf *mdev)
				1815	{
				1816	return _drbd_send_uuids(mdev, 0);
				1817	}
				1818
				1819	int drbd_send_uuids_skip_initial_sync(struct drbd_conf *mdev)
				1820	{
				1821	return _drbd_send_uuids(mdev, 8);
				1822	}
				1823
				1824
				1825	int drbd_send_sync_uuid(struct drbd_conf *mdev, u64 val)
				1826	{
				1827	struct p_rs_uuid p;
				1828
				1829	p.uuid = cpu_to_be64(val);
				1830
				1831	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SYNC_UUID,
				1832	(struct p_header *)&p, sizeof(p));
				1833	}
				1834
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1835	int drbd_send_sizes(struct drbd_conf *mdev, int trigger_reply, enum dds_flags flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1836	{
				1837	struct p_sizes p;
				1838	sector_t d_size, u_size;
				1839	int q_order_type;
				1840	int ok;
				1841
				1842	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1843	D_ASSERT(mdev->ldev->backing_bdev);
				1844	d_size = drbd_get_max_capacity(mdev->ldev);
				1845	u_size = mdev->ldev->dc.disk_size;
				1846	q_order_type = drbd_queue_order_type(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1847	put_ldev(mdev);
				1848	} else {
				1849	d_size = 0;
				1850	u_size = 0;
				1851	q_order_type = QUEUE_ORDERED_NONE;
				1852	}
				1853
				1854	p.d_size = cpu_to_be64(d_size);
				1855	p.u_size = cpu_to_be64(u_size);
				1856	p.c_size = cpu_to_be64(trigger_reply ? 0 : drbd_get_capacity(mdev->this_bdev));
				1857	p.max_segment_size = cpu_to_be32(queue_max_segment_size(mdev->rq_queue));
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1858	p.queue_order_type = cpu_to_be16(q_order_type);
				1859	p.dds_flags = cpu_to_be16(flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1860
				1861	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SIZES,
				1862	(struct p_header *)&p, sizeof(p));
				1863	return ok;
				1864	}
				1865
				1866	/**
				1867	* drbd_send_state() - Sends the drbd state to the peer
				1868	* @mdev: DRBD device.
				1869	*/
				1870	int drbd_send_state(struct drbd_conf *mdev)
				1871	{
				1872	struct socket *sock;
				1873	struct p_state p;
				1874	int ok = 0;
				1875
				1876	/* Grab state lock so we wont send state if we're in the middle
				1877	* of a cluster wide state change on another thread */
				1878	drbd_state_lock(mdev);
				1879
				1880	mutex_lock(&mdev->data.mutex);
				1881
				1882	p.state = cpu_to_be32(mdev->state.i); /* Within the send mutex */
				1883	sock = mdev->data.socket;
				1884
				1885	if (likely(sock != NULL)) {
				1886	ok = _drbd_send_cmd(mdev, sock, P_STATE,
				1887	(struct p_header *)&p, sizeof(p), 0);
				1888	}
				1889
				1890	mutex_unlock(&mdev->data.mutex);
				1891
				1892	drbd_state_unlock(mdev);
				1893	return ok;
				1894	}
				1895
				1896	int drbd_send_state_req(struct drbd_conf *mdev,
				1897	union drbd_state mask, union drbd_state val)
				1898	{
				1899	struct p_req_state p;
				1900
				1901	p.mask = cpu_to_be32(mask.i);
				1902	p.val = cpu_to_be32(val.i);
				1903
				1904	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_STATE_CHG_REQ,
				1905	(struct p_header *)&p, sizeof(p));
				1906	}
				1907
				1908	int drbd_send_sr_reply(struct drbd_conf *mdev, int retcode)
				1909	{
				1910	struct p_req_state_reply p;
				1911
				1912	p.retcode = cpu_to_be32(retcode);
				1913
				1914	return drbd_send_cmd(mdev, USE_META_SOCKET, P_STATE_CHG_REPLY,
				1915	(struct p_header *)&p, sizeof(p));
				1916	}
				1917
				1918	int fill_bitmap_rle_bits(struct drbd_conf *mdev,
				1919	struct p_compressed_bm *p,
				1920	struct bm_xfer_ctx *c)
				1921	{
				1922	struct bitstream bs;
				1923	unsigned long plain_bits;
				1924	unsigned long tmp;
				1925	unsigned long rl;
				1926	unsigned len;
				1927	unsigned toggle;
				1928	int bits;
				1929
				1930	/* may we use this feature? */
				1931	if ((mdev->sync_conf.use_rle == 0) \|\|
				1932	(mdev->agreed_pro_version < 90))
				1933	return 0;
				1934
				1935	if (c->bit_offset >= c->bm_bits)
				1936	return 0; /* nothing to do. */
				1937
				1938	/* use at most thus many bytes */
				1939	bitstream_init(&bs, p->code, BM_PACKET_VLI_BYTES_MAX, 0);
				1940	memset(p->code, 0, BM_PACKET_VLI_BYTES_MAX);
				1941	/* plain bits covered in this code string */
				1942	plain_bits = 0;
				1943
				1944	/* p->encoding & 0x80 stores whether the first run length is set.
				1945	* bit offset is implicit.
				1946	* start with toggle == 2 to be able to tell the first iteration */
				1947	toggle = 2;
				1948
				1949	/* see how much plain bits we can stuff into one packet
				1950	* using RLE and VLI. */
				1951	do {
				1952	tmp = (toggle == 0) ? _drbd_bm_find_next_zero(mdev, c->bit_offset)
				1953	: _drbd_bm_find_next(mdev, c->bit_offset);
				1954	if (tmp == -1UL)
				1955	tmp = c->bm_bits;
				1956	rl = tmp - c->bit_offset;
				1957
				1958	if (toggle == 2) { /* first iteration */
				1959	if (rl == 0) {
				1960	/* the first checked bit was set,
				1961	* store start value, */
				1962	DCBP_set_start(p, 1);
				1963	/* but skip encoding of zero run length */
				1964	toggle = !toggle;
				1965	continue;
				1966	}
				1967	DCBP_set_start(p, 0);
				1968	}
				1969
				1970	/* paranoia: catch zero runlength.
				1971	* can only happen if bitmap is modified while we scan it. */
				1972	if (rl == 0) {
				1973	dev_err(DEV, "unexpected zero runlength while encoding bitmap "
				1974	"t:%u bo:%lu\n", toggle, c->bit_offset);
				1975	return -1;
				1976	}
				1977
				1978	bits = vli_encode_bits(&bs, rl);
				1979	if (bits == -ENOBUFS) /* buffer full */
				1980	break;
				1981	if (bits <= 0) {
				1982	dev_err(DEV, "error while encoding bitmap: %d\n", bits);
				1983	return 0;
				1984	}
				1985
				1986	toggle = !toggle;
				1987	plain_bits += rl;
				1988	c->bit_offset = tmp;
				1989	} while (c->bit_offset < c->bm_bits);
				1990
				1991	len = bs.cur.b - p->code + !!bs.cur.bit;
				1992
				1993	if (plain_bits < (len << 3)) {
				1994	/* incompressible with this method.
				1995	* we need to rewind both word and bit position. */
				1996	c->bit_offset -= plain_bits;
				1997	bm_xfer_ctx_bit_to_word_offset(c);
				1998	c->bit_offset = c->word_offset * BITS_PER_LONG;
				1999	return 0;
				2000	}
				2001
				2002	/* RLE + VLI was able to compress it just fine.
				2003	* update c->word_offset. */
				2004	bm_xfer_ctx_bit_to_word_offset(c);
				2005
				2006	/* store pad_bits */
				2007	DCBP_set_pad_bits(p, (8 - bs.cur.bit) & 0x7);
				2008
				2009	return len;
				2010	}
				2011
				2012	enum { OK, FAILED, DONE }
				2013	send_bitmap_rle_or_plain(struct drbd_conf *mdev,
				2014	struct p_header h, struct bm_xfer_ctx c)
				2015	{
				2016	struct p_compressed_bm p = (void)h;
				2017	unsigned long num_words;
				2018	int len;
				2019	int ok;
				2020
				2021	len = fill_bitmap_rle_bits(mdev, p, c);
				2022
				2023	if (len < 0)
				2024	return FAILED;
				2025
				2026	if (len) {
				2027	DCBP_set_code(p, RLE_VLI_Bits);
				2028	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_COMPRESSED_BITMAP, h,
				2029	sizeof(*p) + len, 0);
				2030
				2031	c->packets[0]++;
				2032	c->bytes[0] += sizeof(*p) + len;
				2033
				2034	if (c->bit_offset >= c->bm_bits)
				2035	len = 0; /* DONE */
				2036	} else {
				2037	/* was not compressible.
				2038	* send a buffer full of plain text bits instead. */
				2039	num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
				2040	len = num_words * sizeof(long);
				2041	if (len)
				2042	drbd_bm_get_lel(mdev, c->word_offset, num_words, (unsigned long*)h->payload);
				2043	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BITMAP,
				2044	h, sizeof(struct p_header) + len, 0);
				2045	c->word_offset += num_words;
				2046	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2047
				2048	c->packets[1]++;
				2049	c->bytes[1] += sizeof(struct p_header) + len;
				2050
				2051	if (c->bit_offset > c->bm_bits)
				2052	c->bit_offset = c->bm_bits;
				2053	}
				2054	ok = ok ? ((len == 0) ? DONE : OK) : FAILED;
				2055
				2056	if (ok == DONE)
				2057	INFO_bm_xfer_stats(mdev, "send", c);
				2058	return ok;
				2059	}
				2060
				2061	/* See the comment at receive_bitmap() */
				2062	int _drbd_send_bitmap(struct drbd_conf *mdev)
				2063	{
				2064	struct bm_xfer_ctx c;
				2065	struct p_header *p;
				2066	int ret;
				2067
				2068	ERR_IF(!mdev->bitmap) return FALSE;
				2069
				2070	/* maybe we should use some per thread scratch page,
				2071	* and allocate that during initial device creation? */
				2072	p = (struct p_header *) __get_free_page(GFP_NOIO);
				2073	if (!p) {
				2074	dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
				2075	return FALSE;
				2076	}
				2077
				2078	if (get_ldev(mdev)) {
				2079	if (drbd_md_test_flag(mdev->ldev, MDF_FULL_SYNC)) {
				2080	dev_info(DEV, "Writing the whole bitmap, MDF_FullSync was set.\n");
				2081	drbd_bm_set_all(mdev);
				2082	if (drbd_bm_write(mdev)) {
				2083	/* write_bm did fail! Leave full sync flag set in Meta P_DATA
				2084	* but otherwise process as per normal - need to tell other
				2085	* side that a full resync is required! */
				2086	dev_err(DEV, "Failed to write bitmap to disk!\n");
				2087	} else {
				2088	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				2089	drbd_md_sync(mdev);
				2090	}
				2091	}
				2092	put_ldev(mdev);
				2093	}
				2094
				2095	c = (struct bm_xfer_ctx) {
				2096	.bm_bits = drbd_bm_bits(mdev),
				2097	.bm_words = drbd_bm_words(mdev),
				2098	};
				2099
				2100	do {
				2101	ret = send_bitmap_rle_or_plain(mdev, p, &c);
				2102	} while (ret == OK);
				2103
				2104	free_page((unsigned long) p);
				2105	return (ret == DONE);
				2106	}
				2107
				2108	int drbd_send_bitmap(struct drbd_conf *mdev)
				2109	{
				2110	int err;
				2111
				2112	if (!drbd_get_data_sock(mdev))
				2113	return -1;
				2114	err = !_drbd_send_bitmap(mdev);
				2115	drbd_put_data_sock(mdev);
				2116	return err;
				2117	}
				2118
				2119	int drbd_send_b_ack(struct drbd_conf *mdev, u32 barrier_nr, u32 set_size)
				2120	{
				2121	int ok;
				2122	struct p_barrier_ack p;
				2123
				2124	p.barrier = barrier_nr;
				2125	p.set_size = cpu_to_be32(set_size);
				2126
				2127	if (mdev->state.conn < C_CONNECTED)
				2128	return FALSE;
				2129	ok = drbd_send_cmd(mdev, USE_META_SOCKET, P_BARRIER_ACK,
				2130	(struct p_header *)&p, sizeof(p));
				2131	return ok;
				2132	}
				2133
				2134	/**
				2135	* _drbd_send_ack() - Sends an ack packet
				2136	* @mdev: DRBD device.
				2137	* @cmd: Packet command code.
				2138	* @sector: sector, needs to be in big endian byte order
				2139	* @blksize: size in byte, needs to be in big endian byte order
				2140	* @block_id: Id, big endian byte order
				2141	*/
				2142	static int _drbd_send_ack(struct drbd_conf *mdev, enum drbd_packets cmd,
				2143	u64 sector,
				2144	u32 blksize,
				2145	u64 block_id)
				2146	{
				2147	int ok;
				2148	struct p_block_ack p;
				2149
				2150	p.sector = sector;
				2151	p.block_id = block_id;
				2152	p.blksize = blksize;
				2153	p.seq_num = cpu_to_be32(atomic_add_return(1, &mdev->packet_seq));
				2154
				2155	if (!mdev->meta.socket \|\| mdev->state.conn < C_CONNECTED)
				2156	return FALSE;
				2157	ok = drbd_send_cmd(mdev, USE_META_SOCKET, cmd,
				2158	(struct p_header *)&p, sizeof(p));
				2159	return ok;
				2160	}
				2161
				2162	int drbd_send_ack_dp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2163	struct p_data *dp)
				2164	{
				2165	const int header_size = sizeof(struct p_data)
				2166	- sizeof(struct p_header);
				2167	int data_size = ((struct p_header *)dp)->length - header_size;
				2168
				2169	return _drbd_send_ack(mdev, cmd, dp->sector, cpu_to_be32(data_size),
				2170	dp->block_id);
				2171	}
				2172
				2173	int drbd_send_ack_rp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2174	struct p_block_req *rp)
				2175	{
				2176	return _drbd_send_ack(mdev, cmd, rp->sector, rp->blksize, rp->block_id);
				2177	}
				2178
				2179	/**
				2180	* drbd_send_ack() - Sends an ack packet
				2181	* @mdev: DRBD device.
				2182	* @cmd: Packet command code.
				2183	* @e: Epoch entry.
				2184	*/
				2185	int drbd_send_ack(struct drbd_conf *mdev,
				2186	enum drbd_packets cmd, struct drbd_epoch_entry *e)
				2187	{
				2188	return _drbd_send_ack(mdev, cmd,
				2189	cpu_to_be64(e->sector),
				2190	cpu_to_be32(e->size),
				2191	e->block_id);
				2192	}
				2193
				2194	/* This function misuses the block_id field to signal if the blocks
				2195	* are is sync or not. */
				2196	int drbd_send_ack_ex(struct drbd_conf *mdev, enum drbd_packets cmd,
				2197	sector_t sector, int blksize, u64 block_id)
				2198	{
				2199	return _drbd_send_ack(mdev, cmd,
				2200	cpu_to_be64(sector),
				2201	cpu_to_be32(blksize),
				2202	cpu_to_be64(block_id));
				2203	}
				2204
				2205	int drbd_send_drequest(struct drbd_conf *mdev, int cmd,
				2206	sector_t sector, int size, u64 block_id)
				2207	{
				2208	int ok;
				2209	struct p_block_req p;
				2210
				2211	p.sector = cpu_to_be64(sector);
				2212	p.block_id = block_id;
				2213	p.blksize = cpu_to_be32(size);
				2214
				2215	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, cmd,
				2216	(struct p_header *)&p, sizeof(p));
				2217	return ok;
				2218	}
				2219
				2220	int drbd_send_drequest_csum(struct drbd_conf *mdev,
				2221	sector_t sector, int size,
				2222	void *digest, int digest_size,
				2223	enum drbd_packets cmd)
				2224	{
				2225	int ok;
				2226	struct p_block_req p;
				2227
				2228	p.sector = cpu_to_be64(sector);
				2229	p.block_id = BE_DRBD_MAGIC + 0xbeef;
				2230	p.blksize = cpu_to_be32(size);
				2231
				2232	p.head.magic = BE_DRBD_MAGIC;
				2233	p.head.command = cpu_to_be16(cmd);
				2234	p.head.length = cpu_to_be16(sizeof(p) - sizeof(struct p_header) + digest_size);
				2235
				2236	mutex_lock(&mdev->data.mutex);
				2237
				2238	ok = (sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), 0));
				2239	ok = ok && (digest_size == drbd_send(mdev, mdev->data.socket, digest, digest_size, 0));
				2240
				2241	mutex_unlock(&mdev->data.mutex);
				2242
				2243	return ok;
				2244	}
				2245
				2246	int drbd_send_ov_request(struct drbd_conf *mdev, sector_t sector, int size)
				2247	{
				2248	int ok;
				2249	struct p_block_req p;
				2250
				2251	p.sector = cpu_to_be64(sector);
				2252	p.block_id = BE_DRBD_MAGIC + 0xbabe;
				2253	p.blksize = cpu_to_be32(size);
				2254
				2255	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_OV_REQUEST,
				2256	(struct p_header *)&p, sizeof(p));
				2257	return ok;
				2258	}
				2259
				2260	/* called on sndtimeo
				2261	* returns FALSE if we should retry,
				2262	* TRUE if we think connection is dead
				2263	*/
				2264	static int we_should_drop_the_connection(struct drbd_conf mdev, struct socket sock)
				2265	{
				2266	int drop_it;
				2267	/* long elapsed = (long)(jiffies - mdev->last_received); */
				2268
				2269	drop_it = mdev->meta.socket == sock
				2270	\|\| !mdev->asender.task
				2271	\|\| get_t_state(&mdev->asender) != Running
				2272	\|\| mdev->state.conn < C_CONNECTED;
				2273
				2274	if (drop_it)
				2275	return TRUE;
				2276
				2277	drop_it = !--mdev->ko_count;
				2278	if (!drop_it) {
				2279	dev_err(DEV, "[%s/%d] sock_sendmsg time expired, ko = %u\n",
				2280	current->comm, current->pid, mdev->ko_count);
				2281	request_ping(mdev);
				2282	}
				2283
				2284	return drop_it; /* && (mdev->state == R_PRIMARY) */;
				2285	}
				2286
				2287	/* The idea of sendpage seems to be to put some kind of reference
				2288	* to the page into the skb, and to hand it over to the NIC. In
				2289	* this process get_page() gets called.
				2290	*
				2291	* As soon as the page was really sent over the network put_page()
				2292	* gets called by some part of the network layer. [ NIC driver? ]
				2293	*
				2294	* [ get_page() / put_page() increment/decrement the count. If count
				2295	* reaches 0 the page will be freed. ]
				2296	*
				2297	* This works nicely with pages from FSs.
				2298	* But this means that in protocol A we might signal IO completion too early!
				2299	*
				2300	* In order not to corrupt data during a resync we must make sure
				2301	* that we do not reuse our own buffer pages (EEs) to early, therefore
				2302	* we have the net_ee list.
				2303	*
				2304	* XFS seems to have problems, still, it submits pages with page_count == 0!
				2305	* As a workaround, we disable sendpage on pages
				2306	* with page_count == 0 or PageSlab.
				2307	*/
				2308	static int _drbd_no_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2309	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2310	{
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2311	int sent = drbd_send(mdev, mdev->data.socket, kmap(page) + offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2312	kunmap(page);
				2313	if (sent == size)
				2314	mdev->send_cnt += size>>9;
				2315	return sent == size;
				2316	}
				2317
				2318	static int _drbd_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2319	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2320	{
				2321	mm_segment_t oldfs = get_fs();
				2322	int sent, ok;
				2323	int len = size;
				2324
				2325	/* e.g. XFS meta- & log-data is in slab pages, which have a
				2326	* page_count of 0 and/or have PageSlab() set.
				2327	* we cannot use send_page for those, as that does get_page();
				2328	* put_page(); and would cause either a VM_BUG directly, or
				2329	* __page_cache_release a page that would actually still be referenced
				2330	* by someone, leading to some obscure delayed Oops somewhere else. */
				2331	if (disable_sendpage \|\| (page_count(page) < 1) \|\| PageSlab(page))
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2332	return _drbd_no_send_page(mdev, page, offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2333
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2334	msg_flags \|= MSG_NOSIGNAL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2335	drbd_update_congested(mdev);
				2336	set_fs(KERNEL_DS);
				2337	do {
				2338	sent = mdev->data.socket->ops->sendpage(mdev->data.socket, page,
				2339	offset, len,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2340	msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2341	if (sent == -EAGAIN) {
				2342	if (we_should_drop_the_connection(mdev,
				2343	mdev->data.socket))
				2344	break;
				2345	else
				2346	continue;
				2347	}
				2348	if (sent <= 0) {
				2349	dev_warn(DEV, "%s: size=%d len=%d sent=%d\n",
				2350	__func__, (int)size, len, sent);
				2351	break;
				2352	}
				2353	len -= sent;
				2354	offset += sent;
				2355	} while (len > 0 /* THINK && mdev->cstate >= C_CONNECTED*/);
				2356	set_fs(oldfs);
				2357	clear_bit(NET_CONGESTED, &mdev->flags);
				2358
				2359	ok = (len == 0);
				2360	if (likely(ok))
				2361	mdev->send_cnt += size>>9;
				2362	return ok;
				2363	}
				2364
				2365	static int _drbd_send_bio(struct drbd_conf mdev, struct bio bio)
				2366	{
				2367	struct bio_vec *bvec;
				2368	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2369	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2370	__bio_for_each_segment(bvec, bio, i, 0) {
				2371	if (!_drbd_no_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2372	bvec->bv_offset, bvec->bv_len,
				2373	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2374	return 0;
				2375	}
				2376	return 1;
				2377	}
				2378
				2379	static int _drbd_send_zc_bio(struct drbd_conf mdev, struct bio bio)
				2380	{
				2381	struct bio_vec *bvec;
				2382	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2383	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2384	__bio_for_each_segment(bvec, bio, i, 0) {
				2385	if (!_drbd_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2386	bvec->bv_offset, bvec->bv_len,
				2387	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2388	return 0;
				2389	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2390	return 1;
				2391	}
				2392
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2393	static int _drbd_send_zc_ee(struct drbd_conf mdev, struct drbd_epoch_entry e)
				2394	{
				2395	struct page *page = e->pages;
				2396	unsigned len = e->size;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2397	/* hint all but last page with MSG_MORE */
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2398	page_chain_for_each(page) {
				2399	unsigned l = min_t(unsigned, len, PAGE_SIZE);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2400	if (!_drbd_send_page(mdev, page, 0, l,
				2401	page_chain_next(page) ? MSG_MORE : 0))
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2402	return 0;
				2403	len -= l;
				2404	}
				2405	return 1;
				2406	}
				2407
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2408	/* Used to send write requests
				2409	* R_PRIMARY -> Peer (P_DATA)
				2410	*/
				2411	int drbd_send_dblock(struct drbd_conf mdev, struct drbd_request req)
				2412	{
				2413	int ok = 1;
				2414	struct p_data p;
				2415	unsigned int dp_flags = 0;
				2416	void *dgb;
				2417	int dgs;
				2418
				2419	if (!drbd_get_data_sock(mdev))
				2420	return 0;
				2421
				2422	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2423	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2424
				2425	p.head.magic = BE_DRBD_MAGIC;
				2426	p.head.command = cpu_to_be16(P_DATA);
				2427	p.head.length =
				2428	cpu_to_be16(sizeof(p) - sizeof(struct p_header) + dgs + req->size);
				2429
				2430	p.sector = cpu_to_be64(req->sector);
				2431	p.block_id = (unsigned long)req;
				2432	p.seq_num = cpu_to_be32(req->seq_num =
				2433	atomic_add_return(1, &mdev->packet_seq));
				2434	dp_flags = 0;
				2435
				2436	/* NOTE: no need to check if barriers supported here as we would
				2437	* not pass the test in make_request_common in that case
				2438	*/
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2439	if (req->master_bio->bi_rw & REQ_HARDBARRIER) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2440	dev_err(DEV, "ASSERT FAILED would have set DP_HARDBARRIER\n");
				2441	/* dp_flags \|= DP_HARDBARRIER; */
				2442	}
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2443	if (req->master_bio->bi_rw & REQ_SYNC)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2444	dp_flags \|= DP_RW_SYNC;
				2445	/* for now handle SYNCIO and UNPLUG
				2446	* as if they still were one and the same flag */
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2447	if (req->master_bio->bi_rw & REQ_UNPLUG)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2448	dp_flags \|= DP_RW_SYNC;
				2449	if (mdev->state.conn >= C_SYNC_SOURCE &&
				2450	mdev->state.conn <= C_PAUSED_SYNC_T)
				2451	dp_flags \|= DP_MAY_SET_IN_SYNC;
				2452
				2453	p.dp_flags = cpu_to_be32(dp_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2454	set_bit(UNPLUG_REMOTE, &mdev->flags);
				2455	ok = (sizeof(p) ==
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2456	drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2457	if (ok && dgs) {
				2458	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2459	drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2460	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2461	}
				2462	if (ok) {
				2463	if (mdev->net_conf->wire_protocol == DRBD_PROT_A)
				2464	ok = _drbd_send_bio(mdev, req->master_bio);
				2465	else
				2466	ok = _drbd_send_zc_bio(mdev, req->master_bio);
				2467	}
				2468
				2469	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2470
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2471	return ok;
				2472	}
				2473
				2474	/* answer packet, used to send data back for read requests:
				2475	* Peer -> (diskless) R_PRIMARY (P_DATA_REPLY)
				2476	* C_SYNC_SOURCE -> C_SYNC_TARGET (P_RS_DATA_REPLY)
				2477	*/
				2478	int drbd_send_block(struct drbd_conf *mdev, enum drbd_packets cmd,
				2479	struct drbd_epoch_entry *e)
				2480	{
				2481	int ok;
				2482	struct p_data p;
				2483	void *dgb;
				2484	int dgs;
				2485
				2486	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2487	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2488
				2489	p.head.magic = BE_DRBD_MAGIC;
				2490	p.head.command = cpu_to_be16(cmd);
				2491	p.head.length =
				2492	cpu_to_be16(sizeof(p) - sizeof(struct p_header) + dgs + e->size);
				2493
				2494	p.sector = cpu_to_be64(e->sector);
				2495	p.block_id = e->block_id;
				2496	/* p.seq_num = 0; No sequence numbers here.. */
				2497
				2498	/* Only called by our kernel thread.
				2499	* This one may be interrupted by DRBD_SIG and/or DRBD_SIGKILL
				2500	* in response to admin command or module unload.
				2501	*/
				2502	if (!drbd_get_data_sock(mdev))
				2503	return 0;
				2504
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2505	ok = sizeof(p) == drbd_send(mdev, mdev->data.socket, &p,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2506	sizeof(p), dgs ? MSG_MORE : 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2507	if (ok && dgs) {
				2508	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2509	drbd_csum_ee(mdev, mdev->integrity_w_tfm, e, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2510	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2511	}
				2512	if (ok)
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2513	ok = _drbd_send_zc_ee(mdev, e);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2514
				2515	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2516
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2517	return ok;
				2518	}
				2519
				2520	/*
				2521	drbd_send distinguishes two cases:
				2522
				2523	Packets sent via the data socket "sock"
				2524	and packets sent via the meta data socket "msock"
				2525
				2526	sock msock
				2527	-----------------+-------------------------+------------------------------
				2528	timeout conf.timeout / 2 conf.timeout / 2
				2529	timeout action send a ping via msock Abort communication
				2530	and close all sockets
				2531	*/
				2532
				2533	/*
				2534	* you must have down()ed the appropriate [m]sock_mutex elsewhere!
				2535	*/
				2536	int drbd_send(struct drbd_conf mdev, struct socket sock,
				2537	void *buf, size_t size, unsigned msg_flags)
				2538	{
				2539	struct kvec iov;
				2540	struct msghdr msg;
				2541	int rv, sent = 0;
				2542
				2543	if (!sock)
				2544	return -1000;
				2545
				2546	/* THINK if (signal_pending) return ... ? */
				2547
				2548	iov.iov_base = buf;
				2549	iov.iov_len = size;
				2550
				2551	msg.msg_name = NULL;
				2552	msg.msg_namelen = 0;
				2553	msg.msg_control = NULL;
				2554	msg.msg_controllen = 0;
				2555	msg.msg_flags = msg_flags \| MSG_NOSIGNAL;
				2556
				2557	if (sock == mdev->data.socket) {
				2558	mdev->ko_count = mdev->net_conf->ko_count;
				2559	drbd_update_congested(mdev);
				2560	}
				2561	do {
				2562	/* STRANGE
				2563	* tcp_sendmsg does _not_ use its size parameter at all ?
				2564	*
				2565	* -EAGAIN on timeout, -EINTR on signal.
				2566	*/
				2567	/* THINK
				2568	* do we need to block DRBD_SIG if sock == &meta.socket ??
				2569	* otherwise wake_asender() might interrupt some send_*Ack !
				2570	*/
				2571	rv = kernel_sendmsg(sock, &msg, &iov, 1, size);
				2572	if (rv == -EAGAIN) {
				2573	if (we_should_drop_the_connection(mdev, sock))
				2574	break;
				2575	else
				2576	continue;
				2577	}
				2578	D_ASSERT(rv != 0);
				2579	if (rv == -EINTR) {
				2580	flush_signals(current);
				2581	rv = 0;
				2582	}
				2583	if (rv < 0)
				2584	break;
				2585	sent += rv;
				2586	iov.iov_base += rv;
				2587	iov.iov_len -= rv;
				2588	} while (sent < size);
				2589
				2590	if (sock == mdev->data.socket)
				2591	clear_bit(NET_CONGESTED, &mdev->flags);
				2592
				2593	if (rv <= 0) {
				2594	if (rv != -EAGAIN) {
				2595	dev_err(DEV, "%s_sendmsg returned %d\n",
				2596	sock == mdev->meta.socket ? "msock" : "sock",
				2597	rv);
				2598	drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
				2599	} else
				2600	drbd_force_state(mdev, NS(conn, C_TIMEOUT));
				2601	}
				2602
				2603	return sent;
				2604	}
				2605
				2606	static int drbd_open(struct block_device *bdev, fmode_t mode)
				2607	{
				2608	struct drbd_conf *mdev = bdev->bd_disk->private_data;
				2609	unsigned long flags;
				2610	int rv = 0;
				2611
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2612	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2613	spin_lock_irqsave(&mdev->req_lock, flags);
				2614	/* to have a stable mdev->state.role
				2615	* and no race with updating open_cnt */
				2616
				2617	if (mdev->state.role != R_PRIMARY) {
				2618	if (mode & FMODE_WRITE)
				2619	rv = -EROFS;
				2620	else if (!allow_oos)
				2621	rv = -EMEDIUMTYPE;
				2622	}
				2623
				2624	if (!rv)
				2625	mdev->open_cnt++;
				2626	spin_unlock_irqrestore(&mdev->req_lock, flags);
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2627	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2628
				2629	return rv;
				2630	}
				2631
				2632	static int drbd_release(struct gendisk *gd, fmode_t mode)
				2633	{
				2634	struct drbd_conf *mdev = gd->private_data;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2635	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2636	mdev->open_cnt--;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2637	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2638	return 0;
				2639	}
				2640
				2641	static void drbd_unplug_fn(struct request_queue *q)
				2642	{
				2643	struct drbd_conf *mdev = q->queuedata;
				2644
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2645	/* unplug FIRST */
				2646	spin_lock_irq(q->queue_lock);
				2647	blk_remove_plug(q);
				2648	spin_unlock_irq(q->queue_lock);
				2649
				2650	/* only if connected */
				2651	spin_lock_irq(&mdev->req_lock);
				2652	if (mdev->state.pdsk >= D_INCONSISTENT && mdev->state.conn >= C_CONNECTED) {
				2653	D_ASSERT(mdev->state.role == R_PRIMARY);
				2654	if (test_and_clear_bit(UNPLUG_REMOTE, &mdev->flags)) {
				2655	/* add to the data.work queue,
				2656	* unless already queued.
				2657	* XXX this might be a good addition to drbd_queue_work
				2658	* anyways, to detect "double queuing" ... */
				2659	if (list_empty(&mdev->unplug_work.list))
				2660	drbd_queue_work(&mdev->data.work,
				2661	&mdev->unplug_work);
				2662	}
				2663	}
				2664	spin_unlock_irq(&mdev->req_lock);
				2665
				2666	if (mdev->state.disk >= D_INCONSISTENT)
				2667	drbd_kick_lo(mdev);
				2668	}
				2669
				2670	static void drbd_set_defaults(struct drbd_conf *mdev)
				2671	{
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2672	/* This way we get a compile error when sync_conf grows,
				2673	and we forgot to initialize it here */
				2674	mdev->sync_conf = (struct syncer_conf) {
				2675	/* .rate = */ DRBD_RATE_DEF,
				2676	/* .after = */ DRBD_AFTER_DEF,
				2677	/* .al_extents = */ DRBD_AL_EXTENTS_DEF,
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2678	/* .verify_alg = */ {}, 0,
				2679	/* .cpu_mask = */ {}, 0,
				2680	/* .csums_alg = */ {}, 0,
				2681	/* .use_rle = */ 0
				2682	};
				2683
				2684	/* Have to use that way, because the layout differs between
				2685	big endian and little endian */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2686	mdev->state = (union drbd_state) {
				2687	{ .role = R_SECONDARY,
				2688	.peer = R_UNKNOWN,
				2689	.conn = C_STANDALONE,
				2690	.disk = D_DISKLESS,
				2691	.pdsk = D_UNKNOWN,
				2692	.susp = 0
				2693	} };
				2694	}
				2695
				2696	void drbd_init_set_defaults(struct drbd_conf *mdev)
				2697	{
				2698	/* the memset(,0,) did most of this.
				2699	* note: only assignments, no allocation in here */
				2700
				2701	drbd_set_defaults(mdev);
				2702
				2703	/* for now, we do NOT yet support it,
				2704	* even though we start some framework
				2705	* to eventually support barriers */
				2706	set_bit(NO_BARRIER_SUPP, &mdev->flags);
				2707
				2708	atomic_set(&mdev->ap_bio_cnt, 0);
				2709	atomic_set(&mdev->ap_pending_cnt, 0);
				2710	atomic_set(&mdev->rs_pending_cnt, 0);
				2711	atomic_set(&mdev->unacked_cnt, 0);
				2712	atomic_set(&mdev->local_cnt, 0);
				2713	atomic_set(&mdev->net_cnt, 0);
				2714	atomic_set(&mdev->packet_seq, 0);
				2715	atomic_set(&mdev->pp_in_use, 0);
				2716
				2717	mutex_init(&mdev->md_io_mutex);
				2718	mutex_init(&mdev->data.mutex);
				2719	mutex_init(&mdev->meta.mutex);
				2720	sema_init(&mdev->data.work.s, 0);
				2721	sema_init(&mdev->meta.work.s, 0);
				2722	mutex_init(&mdev->state_mutex);
				2723
				2724	spin_lock_init(&mdev->data.work.q_lock);
				2725	spin_lock_init(&mdev->meta.work.q_lock);
				2726
				2727	spin_lock_init(&mdev->al_lock);
				2728	spin_lock_init(&mdev->req_lock);
				2729	spin_lock_init(&mdev->peer_seq_lock);
				2730	spin_lock_init(&mdev->epoch_lock);
				2731
				2732	INIT_LIST_HEAD(&mdev->active_ee);
				2733	INIT_LIST_HEAD(&mdev->sync_ee);
				2734	INIT_LIST_HEAD(&mdev->done_ee);
				2735	INIT_LIST_HEAD(&mdev->read_ee);
				2736	INIT_LIST_HEAD(&mdev->net_ee);
				2737	INIT_LIST_HEAD(&mdev->resync_reads);
				2738	INIT_LIST_HEAD(&mdev->data.work.q);
				2739	INIT_LIST_HEAD(&mdev->meta.work.q);
				2740	INIT_LIST_HEAD(&mdev->resync_work.list);
				2741	INIT_LIST_HEAD(&mdev->unplug_work.list);
				2742	INIT_LIST_HEAD(&mdev->md_sync_work.list);
				2743	INIT_LIST_HEAD(&mdev->bm_io_work.w.list);
Philipp Reisner	0ced55a	2010-04-30 15:26:20 +0200	[diff] [blame]	2744
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2745	mdev->resync_work.cb = w_resync_inactive;
				2746	mdev->unplug_work.cb = w_send_write_hint;
				2747	mdev->md_sync_work.cb = w_md_sync;
				2748	mdev->bm_io_work.w.cb = w_bitmap_io;
				2749	init_timer(&mdev->resync_timer);
				2750	init_timer(&mdev->md_sync_timer);
				2751	mdev->resync_timer.function = resync_timer_fn;
				2752	mdev->resync_timer.data = (unsigned long) mdev;
				2753	mdev->md_sync_timer.function = md_sync_timer_fn;
				2754	mdev->md_sync_timer.data = (unsigned long) mdev;
				2755
				2756	init_waitqueue_head(&mdev->misc_wait);
				2757	init_waitqueue_head(&mdev->state_wait);
				2758	init_waitqueue_head(&mdev->ee_wait);
				2759	init_waitqueue_head(&mdev->al_wait);
				2760	init_waitqueue_head(&mdev->seq_wait);
				2761
				2762	drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
				2763	drbd_thread_init(mdev, &mdev->worker, drbd_worker);
				2764	drbd_thread_init(mdev, &mdev->asender, drbd_asender);
				2765
				2766	mdev->agreed_pro_version = PRO_VERSION_MAX;
				2767	mdev->write_ordering = WO_bio_barrier;
				2768	mdev->resync_wenr = LC_FREE;
				2769	}
				2770
				2771	void drbd_mdev_cleanup(struct drbd_conf *mdev)
				2772	{
				2773	if (mdev->receiver.t_state != None)
				2774	dev_err(DEV, "ASSERT FAILED: receiver t_state == %d expected 0.\n",
				2775	mdev->receiver.t_state);
				2776
				2777	/* no need to lock it, I'm the only thread alive */
				2778	if (atomic_read(&mdev->current_epoch->epoch_size) != 0)
				2779	dev_err(DEV, "epoch_size:%d\n", atomic_read(&mdev->current_epoch->epoch_size));
				2780	mdev->al_writ_cnt =
				2781	mdev->bm_writ_cnt =
				2782	mdev->read_cnt =
				2783	mdev->recv_cnt =
				2784	mdev->send_cnt =
				2785	mdev->writ_cnt =
				2786	mdev->p_size =
				2787	mdev->rs_start =
				2788	mdev->rs_total =
				2789	mdev->rs_failed =
				2790	mdev->rs_mark_left =
				2791	mdev->rs_mark_time = 0;
				2792	D_ASSERT(mdev->net_conf == NULL);
				2793
				2794	drbd_set_my_capacity(mdev, 0);
				2795	if (mdev->bitmap) {
				2796	/* maybe never allocated. */
Philipp Reisner	02d9a94	2010-03-24 16:23:03 +0100	[diff] [blame]	2797	drbd_bm_resize(mdev, 0, 1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2798	drbd_bm_cleanup(mdev);
				2799	}
				2800
				2801	drbd_free_resources(mdev);
				2802
				2803	/*
				2804	* currently we drbd_init_ee only on module load, so
				2805	* we may do drbd_release_ee only on module unload!
				2806	*/
				2807	D_ASSERT(list_empty(&mdev->active_ee));
				2808	D_ASSERT(list_empty(&mdev->sync_ee));
				2809	D_ASSERT(list_empty(&mdev->done_ee));
				2810	D_ASSERT(list_empty(&mdev->read_ee));
				2811	D_ASSERT(list_empty(&mdev->net_ee));
				2812	D_ASSERT(list_empty(&mdev->resync_reads));
				2813	D_ASSERT(list_empty(&mdev->data.work.q));
				2814	D_ASSERT(list_empty(&mdev->meta.work.q));
				2815	D_ASSERT(list_empty(&mdev->resync_work.list));
				2816	D_ASSERT(list_empty(&mdev->unplug_work.list));
				2817
				2818	}
				2819
				2820
				2821	static void drbd_destroy_mempools(void)
				2822	{
				2823	struct page *page;
				2824
				2825	while (drbd_pp_pool) {
				2826	page = drbd_pp_pool;
				2827	drbd_pp_pool = (struct page *)page_private(page);
				2828	__free_page(page);
				2829	drbd_pp_vacant--;
				2830	}
				2831
				2832	/* D_ASSERT(atomic_read(&drbd_pp_vacant)==0); */
				2833
				2834	if (drbd_ee_mempool)
				2835	mempool_destroy(drbd_ee_mempool);
				2836	if (drbd_request_mempool)
				2837	mempool_destroy(drbd_request_mempool);
				2838	if (drbd_ee_cache)
				2839	kmem_cache_destroy(drbd_ee_cache);
				2840	if (drbd_request_cache)
				2841	kmem_cache_destroy(drbd_request_cache);
				2842	if (drbd_bm_ext_cache)
				2843	kmem_cache_destroy(drbd_bm_ext_cache);
				2844	if (drbd_al_ext_cache)
				2845	kmem_cache_destroy(drbd_al_ext_cache);
				2846
				2847	drbd_ee_mempool = NULL;
				2848	drbd_request_mempool = NULL;
				2849	drbd_ee_cache = NULL;
				2850	drbd_request_cache = NULL;
				2851	drbd_bm_ext_cache = NULL;
				2852	drbd_al_ext_cache = NULL;
				2853
				2854	return;
				2855	}
				2856
				2857	static int drbd_create_mempools(void)
				2858	{
				2859	struct page *page;
				2860	const int number = (DRBD_MAX_SEGMENT_SIZE/PAGE_SIZE) * minor_count;
				2861	int i;
				2862
				2863	/* prepare our caches and mempools */
				2864	drbd_request_mempool = NULL;
				2865	drbd_ee_cache = NULL;
				2866	drbd_request_cache = NULL;
				2867	drbd_bm_ext_cache = NULL;
				2868	drbd_al_ext_cache = NULL;
				2869	drbd_pp_pool = NULL;
				2870
				2871	/* caches */
				2872	drbd_request_cache = kmem_cache_create(
				2873	"drbd_req", sizeof(struct drbd_request), 0, 0, NULL);
				2874	if (drbd_request_cache == NULL)
				2875	goto Enomem;
				2876
				2877	drbd_ee_cache = kmem_cache_create(
				2878	"drbd_ee", sizeof(struct drbd_epoch_entry), 0, 0, NULL);
				2879	if (drbd_ee_cache == NULL)
				2880	goto Enomem;
				2881
				2882	drbd_bm_ext_cache = kmem_cache_create(
				2883	"drbd_bm", sizeof(struct bm_extent), 0, 0, NULL);
				2884	if (drbd_bm_ext_cache == NULL)
				2885	goto Enomem;
				2886
				2887	drbd_al_ext_cache = kmem_cache_create(
				2888	"drbd_al", sizeof(struct lc_element), 0, 0, NULL);
				2889	if (drbd_al_ext_cache == NULL)
				2890	goto Enomem;
				2891
				2892	/* mempools */
				2893	drbd_request_mempool = mempool_create(number,
				2894	mempool_alloc_slab, mempool_free_slab, drbd_request_cache);
				2895	if (drbd_request_mempool == NULL)
				2896	goto Enomem;
				2897
				2898	drbd_ee_mempool = mempool_create(number,
				2899	mempool_alloc_slab, mempool_free_slab, drbd_ee_cache);
				2900	if (drbd_request_mempool == NULL)
				2901	goto Enomem;
				2902
				2903	/* drbd's page pool */
				2904	spin_lock_init(&drbd_pp_lock);
				2905
				2906	for (i = 0; i < number; i++) {
				2907	page = alloc_page(GFP_HIGHUSER);
				2908	if (!page)
				2909	goto Enomem;
				2910	set_page_private(page, (unsigned long)drbd_pp_pool);
				2911	drbd_pp_pool = page;
				2912	}
				2913	drbd_pp_vacant = number;
				2914
				2915	return 0;
				2916
				2917	Enomem:
				2918	drbd_destroy_mempools(); /* in case we allocated some */
				2919	return -ENOMEM;
				2920	}
				2921
				2922	static int drbd_notify_sys(struct notifier_block *this, unsigned long code,
				2923	void *unused)
				2924	{
				2925	/* just so we have it. you never know what interesting things we
				2926	* might want to do here some day...
				2927	*/
				2928
				2929	return NOTIFY_DONE;
				2930	}
				2931
				2932	static struct notifier_block drbd_notifier = {
				2933	.notifier_call = drbd_notify_sys,
				2934	};
				2935
				2936	static void drbd_release_ee_lists(struct drbd_conf *mdev)
				2937	{
				2938	int rr;
				2939
				2940	rr = drbd_release_ee(mdev, &mdev->active_ee);
				2941	if (rr)
				2942	dev_err(DEV, "%d EEs in active list found!\n", rr);
				2943
				2944	rr = drbd_release_ee(mdev, &mdev->sync_ee);
				2945	if (rr)
				2946	dev_err(DEV, "%d EEs in sync list found!\n", rr);
				2947
				2948	rr = drbd_release_ee(mdev, &mdev->read_ee);
				2949	if (rr)
				2950	dev_err(DEV, "%d EEs in read list found!\n", rr);
				2951
				2952	rr = drbd_release_ee(mdev, &mdev->done_ee);
				2953	if (rr)
				2954	dev_err(DEV, "%d EEs in done list found!\n", rr);
				2955
				2956	rr = drbd_release_ee(mdev, &mdev->net_ee);
				2957	if (rr)
				2958	dev_err(DEV, "%d EEs in net list found!\n", rr);
				2959	}
				2960
				2961	/* caution. no locking.
				2962	* currently only used from module cleanup code. */
				2963	static void drbd_delete_device(unsigned int minor)
				2964	{
				2965	struct drbd_conf *mdev = minor_to_mdev(minor);
				2966
				2967	if (!mdev)
				2968	return;
				2969
				2970	/* paranoia asserts */
				2971	if (mdev->open_cnt != 0)
				2972	dev_err(DEV, "open_cnt = %d in %s:%u", mdev->open_cnt,
				2973	__FILE__ , __LINE__);
				2974
				2975	ERR_IF (!list_empty(&mdev->data.work.q)) {
				2976	struct list_head *lp;
				2977	list_for_each(lp, &mdev->data.work.q) {
				2978	dev_err(DEV, "lp = %p\n", lp);
				2979	}
				2980	};
				2981	/* end paranoia asserts */
				2982
				2983	del_gendisk(mdev->vdisk);
				2984
				2985	/* cleanup stuff that may have been allocated during
				2986	* device (re-)configuration or state changes */
				2987
				2988	if (mdev->this_bdev)
				2989	bdput(mdev->this_bdev);
				2990
				2991	drbd_free_resources(mdev);
				2992
				2993	drbd_release_ee_lists(mdev);
				2994
				2995	/* should be free'd on disconnect? */
				2996	kfree(mdev->ee_hash);
				2997	/*
				2998	mdev->ee_hash_s = 0;
				2999	mdev->ee_hash = NULL;
				3000	*/
				3001
				3002	lc_destroy(mdev->act_log);
				3003	lc_destroy(mdev->resync);
				3004
				3005	kfree(mdev->p_uuid);
				3006	/* mdev->p_uuid = NULL; */
				3007
				3008	kfree(mdev->int_dig_out);
				3009	kfree(mdev->int_dig_in);
				3010	kfree(mdev->int_dig_vv);
				3011
				3012	/* cleanup the rest that has been
				3013	* allocated from drbd_new_device
				3014	* and actually free the mdev itself */
				3015	drbd_free_mdev(mdev);
				3016	}
				3017
				3018	static void drbd_cleanup(void)
				3019	{
				3020	unsigned int i;
				3021
				3022	unregister_reboot_notifier(&drbd_notifier);
				3023
				3024	drbd_nl_cleanup();
				3025
				3026	if (minor_table) {
				3027	if (drbd_proc)
				3028	remove_proc_entry("drbd", NULL);
				3029	i = minor_count;
				3030	while (i--)
				3031	drbd_delete_device(i);
				3032	drbd_destroy_mempools();
				3033	}
				3034
				3035	kfree(minor_table);
				3036
				3037	unregister_blkdev(DRBD_MAJOR, "drbd");
				3038
				3039	printk(KERN_INFO "drbd: module cleanup done.\n");
				3040	}
				3041
				3042	/**
				3043	* drbd_congested() - Callback for pdflush
				3044	* @congested_data: User data
				3045	* @bdi_bits: Bits pdflush is currently interested in
				3046	*
				3047	* Returns 1<<BDI_async_congested and/or 1<<BDI_sync_congested if we are congested.
				3048	*/
				3049	static int drbd_congested(void *congested_data, int bdi_bits)
				3050	{
				3051	struct drbd_conf *mdev = congested_data;
				3052	struct request_queue *q;
				3053	char reason = '-';
				3054	int r = 0;
				3055
				3056	if (!__inc_ap_bio_cond(mdev)) {
				3057	/* DRBD has frozen IO */
				3058	r = bdi_bits;
				3059	reason = 'd';
				3060	goto out;
				3061	}
				3062
				3063	if (get_ldev(mdev)) {
				3064	q = bdev_get_queue(mdev->ldev->backing_bdev);
				3065	r = bdi_congested(&q->backing_dev_info, bdi_bits);
				3066	put_ldev(mdev);
				3067	if (r)
				3068	reason = 'b';
				3069	}
				3070
				3071	if (bdi_bits & (1 << BDI_async_congested) && test_bit(NET_CONGESTED, &mdev->flags)) {
				3072	r \|= (1 << BDI_async_congested);
				3073	reason = reason == 'b' ? 'a' : 'n';
				3074	}
				3075
				3076	out:
				3077	mdev->congestion_reason = reason;
				3078	return r;
				3079	}
				3080
				3081	struct drbd_conf *drbd_new_device(unsigned int minor)
				3082	{
				3083	struct drbd_conf *mdev;
				3084	struct gendisk *disk;
				3085	struct request_queue *q;
				3086
				3087	/* GFP_KERNEL, we are outside of all write-out paths */
				3088	mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
				3089	if (!mdev)
				3090	return NULL;
				3091	if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
				3092	goto out_no_cpumask;
				3093
				3094	mdev->minor = minor;
				3095
				3096	drbd_init_set_defaults(mdev);
				3097
				3098	q = blk_alloc_queue(GFP_KERNEL);
				3099	if (!q)
				3100	goto out_no_q;
				3101	mdev->rq_queue = q;
				3102	q->queuedata = mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3103
				3104	disk = alloc_disk(1);
				3105	if (!disk)
				3106	goto out_no_disk;
				3107	mdev->vdisk = disk;
				3108
				3109	set_disk_ro(disk, TRUE);
				3110
				3111	disk->queue = q;
				3112	disk->major = DRBD_MAJOR;
				3113	disk->first_minor = minor;
				3114	disk->fops = &drbd_ops;
				3115	sprintf(disk->disk_name, "drbd%d", minor);
				3116	disk->private_data = mdev;
				3117
				3118	mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
				3119	/* we have no partitions. we contain only ourselves. */
				3120	mdev->this_bdev->bd_contains = mdev->this_bdev;
				3121
				3122	q->backing_dev_info.congested_fn = drbd_congested;
				3123	q->backing_dev_info.congested_data = mdev;
				3124
				3125	blk_queue_make_request(q, drbd_make_request_26);
Lars Ellenberg	98ec286	2010-01-21 19:33:14 +0100	[diff] [blame]	3126	blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3127	blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
				3128	blk_queue_merge_bvec(q, drbd_merge_bvec);
				3129	q->queue_lock = &mdev->req_lock; /* needed since we use */
				3130	/* plugging on a queue, that actually has no requests! */
				3131	q->unplug_fn = drbd_unplug_fn;
				3132
				3133	mdev->md_io_page = alloc_page(GFP_KERNEL);
				3134	if (!mdev->md_io_page)
				3135	goto out_no_io_page;
				3136
				3137	if (drbd_bm_init(mdev))
				3138	goto out_no_bitmap;
				3139	/* no need to lock access, we are still initializing this minor device. */
				3140	if (!tl_init(mdev))
				3141	goto out_no_tl;
				3142
				3143	mdev->app_reads_hash = kzalloc(APP_R_HSIZEsizeof(void ), GFP_KERNEL);
				3144	if (!mdev->app_reads_hash)
				3145	goto out_no_app_reads;
				3146
				3147	mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
				3148	if (!mdev->current_epoch)
				3149	goto out_no_epoch;
				3150
				3151	INIT_LIST_HEAD(&mdev->current_epoch->list);
				3152	mdev->epochs = 1;
				3153
				3154	return mdev;
				3155
				3156	/* out_whatever_else:
				3157	kfree(mdev->current_epoch); */
				3158	out_no_epoch:
				3159	kfree(mdev->app_reads_hash);
				3160	out_no_app_reads:
				3161	tl_cleanup(mdev);
				3162	out_no_tl:
				3163	drbd_bm_cleanup(mdev);
				3164	out_no_bitmap:
				3165	__free_page(mdev->md_io_page);
				3166	out_no_io_page:
				3167	put_disk(disk);
				3168	out_no_disk:
				3169	blk_cleanup_queue(q);
				3170	out_no_q:
				3171	free_cpumask_var(mdev->cpu_mask);
				3172	out_no_cpumask:
				3173	kfree(mdev);
				3174	return NULL;
				3175	}
				3176
				3177	/* counterpart of drbd_new_device.
				3178	* last part of drbd_delete_device. */
				3179	void drbd_free_mdev(struct drbd_conf *mdev)
				3180	{
				3181	kfree(mdev->current_epoch);
				3182	kfree(mdev->app_reads_hash);
				3183	tl_cleanup(mdev);
				3184	if (mdev->bitmap) /* should no longer be there. */
				3185	drbd_bm_cleanup(mdev);
				3186	__free_page(mdev->md_io_page);
				3187	put_disk(mdev->vdisk);
				3188	blk_cleanup_queue(mdev->rq_queue);
				3189	free_cpumask_var(mdev->cpu_mask);
				3190	kfree(mdev);
				3191	}
				3192
				3193
				3194	int __init drbd_init(void)
				3195	{
				3196	int err;
				3197
				3198	if (sizeof(struct p_handshake) != 80) {
				3199	printk(KERN_ERR
				3200	"drbd: never change the size or layout "
				3201	"of the HandShake packet.\n");
				3202	return -EINVAL;
				3203	}
				3204
				3205	if (1 > minor_count \|\| minor_count > 255) {
				3206	printk(KERN_ERR
				3207	"drbd: invalid minor_count (%d)\n", minor_count);
				3208	#ifdef MODULE
				3209	return -EINVAL;
				3210	#else
				3211	minor_count = 8;
				3212	#endif
				3213	}
				3214
				3215	err = drbd_nl_init();
				3216	if (err)
				3217	return err;
				3218
				3219	err = register_blkdev(DRBD_MAJOR, "drbd");
				3220	if (err) {
				3221	printk(KERN_ERR
				3222	"drbd: unable to register block device major %d\n",
				3223	DRBD_MAJOR);
				3224	return err;
				3225	}
				3226
				3227	register_reboot_notifier(&drbd_notifier);
				3228
				3229	/*
				3230	* allocate all necessary structs
				3231	*/
				3232	err = -ENOMEM;
				3233
				3234	init_waitqueue_head(&drbd_pp_wait);
				3235
				3236	drbd_proc = NULL; /* play safe for drbd_cleanup */
				3237	minor_table = kzalloc(sizeof(struct drbd_conf )minor_count,
				3238	GFP_KERNEL);
				3239	if (!minor_table)
				3240	goto Enomem;
				3241
				3242	err = drbd_create_mempools();
				3243	if (err)
				3244	goto Enomem;
				3245
Lars Ellenberg	8c484ee	2010-03-11 16:47:58 +0100	[diff] [blame]	3246	drbd_proc = proc_create_data("drbd", S_IFREG \| S_IRUGO , NULL, &drbd_proc_fops, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3247	if (!drbd_proc) {
				3248	printk(KERN_ERR "drbd: unable to register proc file\n");
				3249	goto Enomem;
				3250	}
				3251
				3252	rwlock_init(&global_state_lock);
				3253
				3254	printk(KERN_INFO "drbd: initialized. "
				3255	"Version: " REL_VERSION " (api:%d/proto:%d-%d)\n",
				3256	API_VERSION, PRO_VERSION_MIN, PRO_VERSION_MAX);
				3257	printk(KERN_INFO "drbd: %s\n", drbd_buildtag());
				3258	printk(KERN_INFO "drbd: registered as block device major %d\n",
				3259	DRBD_MAJOR);
				3260	printk(KERN_INFO "drbd: minor_table @ 0x%p\n", minor_table);
				3261
				3262	return 0; /* Success! */
				3263
				3264	Enomem:
				3265	drbd_cleanup();
				3266	if (err == -ENOMEM)
				3267	/* currently always the case */
				3268	printk(KERN_ERR "drbd: ran out of memory\n");
				3269	else
				3270	printk(KERN_ERR "drbd: initialization failure\n");
				3271	return err;
				3272	}
				3273
				3274	void drbd_free_bc(struct drbd_backing_dev *ldev)
				3275	{
				3276	if (ldev == NULL)
				3277	return;
				3278
				3279	bd_release(ldev->backing_bdev);
				3280	bd_release(ldev->md_bdev);
				3281
				3282	fput(ldev->lo_file);
				3283	fput(ldev->md_file);
				3284
				3285	kfree(ldev);
				3286	}
				3287
				3288	void drbd_free_sock(struct drbd_conf *mdev)
				3289	{
				3290	if (mdev->data.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3291	mutex_lock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3292	kernel_sock_shutdown(mdev->data.socket, SHUT_RDWR);
				3293	sock_release(mdev->data.socket);
				3294	mdev->data.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3295	mutex_unlock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3296	}
				3297	if (mdev->meta.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3298	mutex_lock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3299	kernel_sock_shutdown(mdev->meta.socket, SHUT_RDWR);
				3300	sock_release(mdev->meta.socket);
				3301	mdev->meta.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3302	mutex_unlock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3303	}
				3304	}
				3305
				3306
				3307	void drbd_free_resources(struct drbd_conf *mdev)
				3308	{
				3309	crypto_free_hash(mdev->csums_tfm);
				3310	mdev->csums_tfm = NULL;
				3311	crypto_free_hash(mdev->verify_tfm);
				3312	mdev->verify_tfm = NULL;
				3313	crypto_free_hash(mdev->cram_hmac_tfm);
				3314	mdev->cram_hmac_tfm = NULL;
				3315	crypto_free_hash(mdev->integrity_w_tfm);
				3316	mdev->integrity_w_tfm = NULL;
				3317	crypto_free_hash(mdev->integrity_r_tfm);
				3318	mdev->integrity_r_tfm = NULL;
				3319
				3320	drbd_free_sock(mdev);
				3321
				3322	__no_warn(local,
				3323	drbd_free_bc(mdev->ldev);
				3324	mdev->ldev = NULL;);
				3325	}
				3326
				3327	/* meta data management */
				3328
				3329	struct meta_data_on_disk {
				3330	u64 la_size; /* last agreed size. */
				3331	u64 uuid[UI_SIZE]; /* UUIDs. */
				3332	u64 device_uuid;
				3333	u64 reserved_u64_1;
				3334	u32 flags; /* MDF */
				3335	u32 magic;
				3336	u32 md_size_sect;
				3337	u32 al_offset; /* offset to this block */
				3338	u32 al_nr_extents; /* important for restoring the AL */
				3339	/* `-- act_log->nr_elements <-- sync_conf.al_extents */
				3340	u32 bm_offset; /* offset to the bitmap, from here */
				3341	u32 bm_bytes_per_bit; /* BM_BLOCK_SIZE */
				3342	u32 reserved_u32[4];
				3343
				3344	} __packed;
				3345
				3346	/**
				3347	* drbd_md_sync() - Writes the meta data super block if the MD_DIRTY flag bit is set
				3348	* @mdev: DRBD device.
				3349	*/
				3350	void drbd_md_sync(struct drbd_conf *mdev)
				3351	{
				3352	struct meta_data_on_disk *buffer;
				3353	sector_t sector;
				3354	int i;
				3355
				3356	if (!test_and_clear_bit(MD_DIRTY, &mdev->flags))
				3357	return;
				3358	del_timer(&mdev->md_sync_timer);
				3359
				3360	/* We use here D_FAILED and not D_ATTACHING because we try to write
				3361	* metadata even if we detach due to a disk failure! */
				3362	if (!get_ldev_if_state(mdev, D_FAILED))
				3363	return;
				3364
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3365	mutex_lock(&mdev->md_io_mutex);
				3366	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3367	memset(buffer, 0, 512);
				3368
				3369	buffer->la_size = cpu_to_be64(drbd_get_capacity(mdev->this_bdev));
				3370	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3371	buffer->uuid[i] = cpu_to_be64(mdev->ldev->md.uuid[i]);
				3372	buffer->flags = cpu_to_be32(mdev->ldev->md.flags);
				3373	buffer->magic = cpu_to_be32(DRBD_MD_MAGIC);
				3374
				3375	buffer->md_size_sect = cpu_to_be32(mdev->ldev->md.md_size_sect);
				3376	buffer->al_offset = cpu_to_be32(mdev->ldev->md.al_offset);
				3377	buffer->al_nr_extents = cpu_to_be32(mdev->act_log->nr_elements);
				3378	buffer->bm_bytes_per_bit = cpu_to_be32(BM_BLOCK_SIZE);
				3379	buffer->device_uuid = cpu_to_be64(mdev->ldev->md.device_uuid);
				3380
				3381	buffer->bm_offset = cpu_to_be32(mdev->ldev->md.bm_offset);
				3382
				3383	D_ASSERT(drbd_md_ss__(mdev, mdev->ldev) == mdev->ldev->md.md_offset);
				3384	sector = mdev->ldev->md.md_offset;
				3385
				3386	if (drbd_md_sync_page_io(mdev, mdev->ldev, sector, WRITE)) {
				3387	clear_bit(MD_DIRTY, &mdev->flags);
				3388	} else {
				3389	/* this was a try anyways ... */
				3390	dev_err(DEV, "meta data update failed!\n");
				3391
				3392	drbd_chk_io_error(mdev, 1, TRUE);
				3393	}
				3394
				3395	/* Update mdev->ldev->md.la_size_sect,
				3396	* since we updated it on metadata. */
				3397	mdev->ldev->md.la_size_sect = drbd_get_capacity(mdev->this_bdev);
				3398
				3399	mutex_unlock(&mdev->md_io_mutex);
				3400	put_ldev(mdev);
				3401	}
				3402
				3403	/**
				3404	* drbd_md_read() - Reads in the meta data super block
				3405	* @mdev: DRBD device.
				3406	* @bdev: Device from which the meta data should be read in.
				3407	*
				3408	* Return 0 (NO_ERROR) on success, and an enum drbd_ret_codes in case
				3409	* something goes wrong. Currently only: ERR_IO_MD_DISK, ERR_MD_INVALID.
				3410	*/
				3411	int drbd_md_read(struct drbd_conf mdev, struct drbd_backing_dev bdev)
				3412	{
				3413	struct meta_data_on_disk *buffer;
				3414	int i, rv = NO_ERROR;
				3415
				3416	if (!get_ldev_if_state(mdev, D_ATTACHING))
				3417	return ERR_IO_MD_DISK;
				3418
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3419	mutex_lock(&mdev->md_io_mutex);
				3420	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3421
				3422	if (!drbd_md_sync_page_io(mdev, bdev, bdev->md.md_offset, READ)) {
				3423	/* NOTE: cant do normal error processing here as this is
				3424	called BEFORE disk is attached */
				3425	dev_err(DEV, "Error while reading metadata.\n");
				3426	rv = ERR_IO_MD_DISK;
				3427	goto err;
				3428	}
				3429
				3430	if (be32_to_cpu(buffer->magic) != DRBD_MD_MAGIC) {
				3431	dev_err(DEV, "Error while reading metadata, magic not found.\n");
				3432	rv = ERR_MD_INVALID;
				3433	goto err;
				3434	}
				3435	if (be32_to_cpu(buffer->al_offset) != bdev->md.al_offset) {
				3436	dev_err(DEV, "unexpected al_offset: %d (expected %d)\n",
				3437	be32_to_cpu(buffer->al_offset), bdev->md.al_offset);
				3438	rv = ERR_MD_INVALID;
				3439	goto err;
				3440	}
				3441	if (be32_to_cpu(buffer->bm_offset) != bdev->md.bm_offset) {
				3442	dev_err(DEV, "unexpected bm_offset: %d (expected %d)\n",
				3443	be32_to_cpu(buffer->bm_offset), bdev->md.bm_offset);
				3444	rv = ERR_MD_INVALID;
				3445	goto err;
				3446	}
				3447	if (be32_to_cpu(buffer->md_size_sect) != bdev->md.md_size_sect) {
				3448	dev_err(DEV, "unexpected md_size: %u (expected %u)\n",
				3449	be32_to_cpu(buffer->md_size_sect), bdev->md.md_size_sect);
				3450	rv = ERR_MD_INVALID;
				3451	goto err;
				3452	}
				3453
				3454	if (be32_to_cpu(buffer->bm_bytes_per_bit) != BM_BLOCK_SIZE) {
				3455	dev_err(DEV, "unexpected bm_bytes_per_bit: %u (expected %u)\n",
				3456	be32_to_cpu(buffer->bm_bytes_per_bit), BM_BLOCK_SIZE);
				3457	rv = ERR_MD_INVALID;
				3458	goto err;
				3459	}
				3460
				3461	bdev->md.la_size_sect = be64_to_cpu(buffer->la_size);
				3462	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3463	bdev->md.uuid[i] = be64_to_cpu(buffer->uuid[i]);
				3464	bdev->md.flags = be32_to_cpu(buffer->flags);
				3465	mdev->sync_conf.al_extents = be32_to_cpu(buffer->al_nr_extents);
				3466	bdev->md.device_uuid = be64_to_cpu(buffer->device_uuid);
				3467
				3468	if (mdev->sync_conf.al_extents < 7)
				3469	mdev->sync_conf.al_extents = 127;
				3470
				3471	err:
				3472	mutex_unlock(&mdev->md_io_mutex);
				3473	put_ldev(mdev);
				3474
				3475	return rv;
				3476	}
				3477
				3478	/**
				3479	* drbd_md_mark_dirty() - Mark meta data super block as dirty
				3480	* @mdev: DRBD device.
				3481	*
				3482	* Call this function if you change anything that should be written to
				3483	* the meta-data super block. This function sets MD_DIRTY, and starts a
				3484	* timer that ensures that within five seconds you have to call drbd_md_sync().
				3485	*/
				3486	void drbd_md_mark_dirty(struct drbd_conf *mdev)
				3487	{
				3488	set_bit(MD_DIRTY, &mdev->flags);
				3489	mod_timer(&mdev->md_sync_timer, jiffies + 5*HZ);
				3490	}
				3491
				3492
				3493	static void drbd_uuid_move_history(struct drbd_conf *mdev) __must_hold(local)
				3494	{
				3495	int i;
				3496
Jens Axboe	6a0afdf	2009-10-01 09:04:14 +0200	[diff] [blame]	3497	for (i = UI_HISTORY_START; i < UI_HISTORY_END; i++)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3498	mdev->ldev->md.uuid[i+1] = mdev->ldev->md.uuid[i];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3499	}
				3500
				3501	void _drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3502	{
				3503	if (idx == UI_CURRENT) {
				3504	if (mdev->state.role == R_PRIMARY)
				3505	val \|= 1;
				3506	else
				3507	val &= ~((u64)1);
				3508
				3509	drbd_set_ed_uuid(mdev, val);
				3510	}
				3511
				3512	mdev->ldev->md.uuid[idx] = val;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3513	drbd_md_mark_dirty(mdev);
				3514	}
				3515
				3516
				3517	void drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3518	{
				3519	if (mdev->ldev->md.uuid[idx]) {
				3520	drbd_uuid_move_history(mdev);
				3521	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[idx];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3522	}
				3523	_drbd_uuid_set(mdev, idx, val);
				3524	}
				3525
				3526	/**
				3527	* drbd_uuid_new_current() - Creates a new current UUID
				3528	* @mdev: DRBD device.
				3529	*
				3530	* Creates a new current UUID, and rotates the old current UUID into
				3531	* the bitmap slot. Causes an incremental resync upon next connect.
				3532	*/
				3533	void drbd_uuid_new_current(struct drbd_conf *mdev) __must_hold(local)
				3534	{
				3535	u64 val;
				3536
				3537	dev_info(DEV, "Creating new current UUID\n");
				3538	D_ASSERT(mdev->ldev->md.uuid[UI_BITMAP] == 0);
				3539	mdev->ldev->md.uuid[UI_BITMAP] = mdev->ldev->md.uuid[UI_CURRENT];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3540
				3541	get_random_bytes(&val, sizeof(u64));
				3542	_drbd_uuid_set(mdev, UI_CURRENT, val);
				3543	}
				3544
				3545	void drbd_uuid_set_bm(struct drbd_conf *mdev, u64 val) __must_hold(local)
				3546	{
				3547	if (mdev->ldev->md.uuid[UI_BITMAP] == 0 && val == 0)
				3548	return;
				3549
				3550	if (val == 0) {
				3551	drbd_uuid_move_history(mdev);
				3552	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[UI_BITMAP];
				3553	mdev->ldev->md.uuid[UI_BITMAP] = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3554	} else {
				3555	if (mdev->ldev->md.uuid[UI_BITMAP])
				3556	dev_warn(DEV, "bm UUID already set");
				3557
				3558	mdev->ldev->md.uuid[UI_BITMAP] = val;
				3559	mdev->ldev->md.uuid[UI_BITMAP] &= ~((u64)1);
				3560
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3561	}
				3562	drbd_md_mark_dirty(mdev);
				3563	}
				3564
				3565	/**
				3566	* drbd_bmio_set_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3567	* @mdev: DRBD device.
				3568	*
				3569	* Sets all bits in the bitmap and writes the whole bitmap to stable storage.
				3570	*/
				3571	int drbd_bmio_set_n_write(struct drbd_conf *mdev)
				3572	{
				3573	int rv = -EIO;
				3574
				3575	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3576	drbd_md_set_flag(mdev, MDF_FULL_SYNC);
				3577	drbd_md_sync(mdev);
				3578	drbd_bm_set_all(mdev);
				3579
				3580	rv = drbd_bm_write(mdev);
				3581
				3582	if (!rv) {
				3583	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				3584	drbd_md_sync(mdev);
				3585	}
				3586
				3587	put_ldev(mdev);
				3588	}
				3589
				3590	return rv;
				3591	}
				3592
				3593	/**
				3594	* drbd_bmio_clear_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3595	* @mdev: DRBD device.
				3596	*
				3597	* Clears all bits in the bitmap and writes the whole bitmap to stable storage.
				3598	*/
				3599	int drbd_bmio_clear_n_write(struct drbd_conf *mdev)
				3600	{
				3601	int rv = -EIO;
				3602
				3603	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3604	drbd_bm_clear_all(mdev);
				3605	rv = drbd_bm_write(mdev);
				3606	put_ldev(mdev);
				3607	}
				3608
				3609	return rv;
				3610	}
				3611
				3612	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused)
				3613	{
				3614	struct bm_io_work *work = container_of(w, struct bm_io_work, w);
				3615	int rv;
				3616
				3617	D_ASSERT(atomic_read(&mdev->ap_bio_cnt) == 0);
				3618
				3619	drbd_bm_lock(mdev, work->why);
				3620	rv = work->io_fn(mdev);
				3621	drbd_bm_unlock(mdev);
				3622
				3623	clear_bit(BITMAP_IO, &mdev->flags);
				3624	wake_up(&mdev->misc_wait);
				3625
				3626	if (work->done)
				3627	work->done(mdev, rv);
				3628
				3629	clear_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3630	work->why = NULL;
				3631
				3632	return 1;
				3633	}
				3634
				3635	/**
				3636	* drbd_queue_bitmap_io() - Queues an IO operation on the whole bitmap
				3637	* @mdev: DRBD device.
				3638	* @io_fn: IO callback to be called when bitmap IO is possible
				3639	* @done: callback to be called after the bitmap IO was performed
				3640	* @why: Descriptive text of the reason for doing the IO
				3641	*
				3642	* While IO on the bitmap happens we freeze application IO thus we ensure
				3643	* that drbd_set_out_of_sync() can not be called. This function MAY ONLY be
				3644	* called from worker context. It MUST NOT be used while a previous such
				3645	* work is still pending!
				3646	*/
				3647	void drbd_queue_bitmap_io(struct drbd_conf *mdev,
				3648	int (io_fn)(struct drbd_conf ),
				3649	void (done)(struct drbd_conf , int),
				3650	char *why)
				3651	{
				3652	D_ASSERT(current == mdev->worker.task);
				3653
				3654	D_ASSERT(!test_bit(BITMAP_IO_QUEUED, &mdev->flags));
				3655	D_ASSERT(!test_bit(BITMAP_IO, &mdev->flags));
				3656	D_ASSERT(list_empty(&mdev->bm_io_work.w.list));
				3657	if (mdev->bm_io_work.why)
				3658	dev_err(DEV, "FIXME going to queue '%s' but '%s' still pending?\n",
				3659	why, mdev->bm_io_work.why);
				3660
				3661	mdev->bm_io_work.io_fn = io_fn;
				3662	mdev->bm_io_work.done = done;
				3663	mdev->bm_io_work.why = why;
				3664
				3665	set_bit(BITMAP_IO, &mdev->flags);
				3666	if (atomic_read(&mdev->ap_bio_cnt) == 0) {
				3667	if (list_empty(&mdev->bm_io_work.w.list)) {
				3668	set_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3669	drbd_queue_work(&mdev->data.work, &mdev->bm_io_work.w);
				3670	} else
				3671	dev_err(DEV, "FIXME avoided double queuing bm_io_work\n");
				3672	}
				3673	}
				3674
				3675	/**
				3676	* drbd_bitmap_io() - Does an IO operation on the whole bitmap
				3677	* @mdev: DRBD device.
				3678	* @io_fn: IO callback to be called when bitmap IO is possible
				3679	* @why: Descriptive text of the reason for doing the IO
				3680	*
				3681	* freezes application IO while that the actual IO operations runs. This
				3682	* functions MAY NOT be called from worker context.
				3683	*/
				3684	int drbd_bitmap_io(struct drbd_conf mdev, int (io_fn)(struct drbd_conf ), char why)
				3685	{
				3686	int rv;
				3687
				3688	D_ASSERT(current != mdev->worker.task);
				3689
				3690	drbd_suspend_io(mdev);
				3691
				3692	drbd_bm_lock(mdev, why);
				3693	rv = io_fn(mdev);
				3694	drbd_bm_unlock(mdev);
				3695
				3696	drbd_resume_io(mdev);
				3697
				3698	return rv;
				3699	}
				3700
				3701	void drbd_md_set_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3702	{
				3703	if ((mdev->ldev->md.flags & flag) != flag) {
				3704	drbd_md_mark_dirty(mdev);
				3705	mdev->ldev->md.flags \|= flag;
				3706	}
				3707	}
				3708
				3709	void drbd_md_clear_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3710	{
				3711	if ((mdev->ldev->md.flags & flag) != 0) {
				3712	drbd_md_mark_dirty(mdev);
				3713	mdev->ldev->md.flags &= ~flag;
				3714	}
				3715	}
				3716	int drbd_md_test_flag(struct drbd_backing_dev *bdev, int flag)
				3717	{
				3718	return (bdev->md.flags & flag) != 0;
				3719	}
				3720
				3721	static void md_sync_timer_fn(unsigned long data)
				3722	{
				3723	struct drbd_conf mdev = (struct drbd_conf ) data;
				3724
				3725	drbd_queue_work_front(&mdev->data.work, &mdev->md_sync_work);
				3726	}
				3727
				3728	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused)
				3729	{
				3730	dev_warn(DEV, "md_sync_timer expired! Worker calls drbd_md_sync().\n");
				3731	drbd_md_sync(mdev);
				3732
				3733	return 1;
				3734	}
				3735
				3736	#ifdef CONFIG_DRBD_FAULT_INJECTION
				3737	/* Fault insertion support including random number generator shamelessly
				3738	* stolen from kernel/rcutorture.c */
				3739	struct fault_random_state {
				3740	unsigned long state;
				3741	unsigned long count;
				3742	};
				3743
				3744	#define FAULT_RANDOM_MULT 39916801 /* prime */
				3745	#define FAULT_RANDOM_ADD 479001701 /* prime */
				3746	#define FAULT_RANDOM_REFRESH 10000
				3747
				3748	/*
				3749	* Crude but fast random-number generator. Uses a linear congruential
				3750	* generator, with occasional help from get_random_bytes().
				3751	*/
				3752	static unsigned long
				3753	_drbd_fault_random(struct fault_random_state *rsp)
				3754	{
				3755	long refresh;
				3756
Roel Kluin	49829ea	2009-12-15 22:55:44 +0100	[diff] [blame]	3757	if (!rsp->count--) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3758	get_random_bytes(&refresh, sizeof(refresh));
				3759	rsp->state += refresh;
				3760	rsp->count = FAULT_RANDOM_REFRESH;
				3761	}
				3762	rsp->state = rsp->state * FAULT_RANDOM_MULT + FAULT_RANDOM_ADD;
				3763	return swahw32(rsp->state);
				3764	}
				3765
				3766	static char *
				3767	_drbd_fault_str(unsigned int type) {
				3768	static char *_faults[] = {
				3769	[DRBD_FAULT_MD_WR] = "Meta-data write",
				3770	[DRBD_FAULT_MD_RD] = "Meta-data read",
				3771	[DRBD_FAULT_RS_WR] = "Resync write",
				3772	[DRBD_FAULT_RS_RD] = "Resync read",
				3773	[DRBD_FAULT_DT_WR] = "Data write",
				3774	[DRBD_FAULT_DT_RD] = "Data read",
				3775	[DRBD_FAULT_DT_RA] = "Data read ahead",
				3776	[DRBD_FAULT_BM_ALLOC] = "BM allocation",
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	3777	[DRBD_FAULT_AL_EE] = "EE allocation",
				3778	[DRBD_FAULT_RECEIVE] = "receive data corruption",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3779	};
				3780
				3781	return (type < DRBD_FAULT_MAX) ? _faults[type] : "Unknown";
				3782	}
				3783
				3784	unsigned int
				3785	_drbd_insert_fault(struct drbd_conf *mdev, unsigned int type)
				3786	{
				3787	static struct fault_random_state rrs = {0, 0};
				3788
				3789	unsigned int ret = (
				3790	(fault_devs == 0 \|\|
				3791	((1 << mdev_to_minor(mdev)) & fault_devs) != 0) &&
				3792	(((_drbd_fault_random(&rrs) % 100) + 1) <= fault_rate));
				3793
				3794	if (ret) {
				3795	fault_count++;
				3796
Lars Ellenberg	7383506	2010-05-27 11:51:56 +0200	[diff] [blame]	3797	if (__ratelimit(&drbd_ratelimit_state))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3798	dev_warn(DEV, "***Simulating %s failure\n",
				3799	_drbd_fault_str(type));
				3800	}
				3801
				3802	return ret;
				3803	}
				3804	#endif
				3805
				3806	const char *drbd_buildtag(void)
				3807	{
				3808	/* DRBD built from external sources has here a reference to the
				3809	git hash of the source code. */
				3810
				3811	static char buildtag[38] = "\0uilt-in";
				3812
				3813	if (buildtag[0] == 0) {
				3814	#ifdef CONFIG_MODULES
				3815	if (THIS_MODULE != NULL)
				3816	sprintf(buildtag, "srcversion: %-24s", THIS_MODULE->srcversion);
				3817	else
				3818	#endif
				3819	buildtag[0] = 'b';
				3820	}
				3821
				3822	return buildtag;
				3823	}
				3824
				3825	module_init(drbd_init)
				3826	module_exit(drbd_cleanup)
				3827
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3828	EXPORT_SYMBOL(drbd_conn_str);
				3829	EXPORT_SYMBOL(drbd_role_str);
				3830	EXPORT_SYMBOL(drbd_disk_str);
				3831	EXPORT_SYMBOL(drbd_set_st_err_str);