Blame - drivers/block/drbd/drbd_main.c - kernel/msm-5.4

blob: c701805ed4b91e7fface02c792504296b517d302 [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	Thanks to Carter Burden, Bart Grantham and Gennadiy Nerubayev
				11	from Logicworks, Inc. for making SDP replication support possible.
				12
				13	drbd is free software; you can redistribute it and/or modify
				14	it under the terms of the GNU General Public License as published by
				15	the Free Software Foundation; either version 2, or (at your option)
				16	any later version.
				17
				18	drbd is distributed in the hope that it will be useful,
				19	but WITHOUT ANY WARRANTY; without even the implied warranty of
				20	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				21	GNU General Public License for more details.
				22
				23	You should have received a copy of the GNU General Public License
				24	along with drbd; see the file COPYING. If not, write to
				25	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				26
				27	*/
				28
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	30	#include <linux/drbd.h>
				31	#include <asm/uaccess.h>
				32	#include <asm/types.h>
				33	#include <net/sock.h>
				34	#include <linux/ctype.h>
				35	#include <linux/smp_lock.h>
				36	#include <linux/fs.h>
				37	#include <linux/file.h>
				38	#include <linux/proc_fs.h>
				39	#include <linux/init.h>
				40	#include <linux/mm.h>
				41	#include <linux/memcontrol.h>
				42	#include <linux/mm_inline.h>
				43	#include <linux/slab.h>
				44	#include <linux/random.h>
				45	#include <linux/reboot.h>
				46	#include <linux/notifier.h>
				47	#include <linux/kthread.h>
				48
				49	#define __KERNEL_SYSCALLS__
				50	#include <linux/unistd.h>
				51	#include <linux/vmalloc.h>
				52
				53	#include <linux/drbd_limits.h>
				54	#include "drbd_int.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	55	#include "drbd_req.h" /* only for _req_mod in tl_release and tl_clear */
				56
				57	#include "drbd_vli.h"
				58
				59	struct after_state_chg_work {
				60	struct drbd_work w;
				61	union drbd_state os;
				62	union drbd_state ns;
				63	enum chg_state_flags flags;
				64	struct completion *done;
				65	};
				66
				67	int drbdd_init(struct drbd_thread *);
				68	int drbd_worker(struct drbd_thread *);
				69	int drbd_asender(struct drbd_thread *);
				70
				71	int drbd_init(void);
				72	static int drbd_open(struct block_device *bdev, fmode_t mode);
				73	static int drbd_release(struct gendisk *gd, fmode_t mode);
				74	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused);
				75	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				76	union drbd_state ns, enum chg_state_flags flags);
				77	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused);
				78	static void md_sync_timer_fn(unsigned long data);
				79	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused);
				80
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	81	MODULE_AUTHOR("Philipp Reisner <phil@linbit.com>, "
				82	"Lars Ellenberg <lars@linbit.com>");
				83	MODULE_DESCRIPTION("drbd - Distributed Replicated Block Device v" REL_VERSION);
				84	MODULE_VERSION(REL_VERSION);
				85	MODULE_LICENSE("GPL");
				86	MODULE_PARM_DESC(minor_count, "Maximum number of drbd devices (1-255)");
				87	MODULE_ALIAS_BLOCKDEV_MAJOR(DRBD_MAJOR);
				88
				89	#include <linux/moduleparam.h>
				90	/* allow_open_on_secondary */
				91	MODULE_PARM_DESC(allow_oos, "DONT USE!");
				92	/* thanks to these macros, if compiled into the kernel (not-module),
				93	* this becomes the boot parameter drbd.minor_count */
				94	module_param(minor_count, uint, 0444);
				95	module_param(disable_sendpage, bool, 0644);
				96	module_param(allow_oos, bool, 0);
				97	module_param(cn_idx, uint, 0444);
				98	module_param(proc_details, int, 0644);
				99
				100	#ifdef CONFIG_DRBD_FAULT_INJECTION
				101	int enable_faults;
				102	int fault_rate;
				103	static int fault_count;
				104	int fault_devs;
				105	/* bitmap of enabled faults */
				106	module_param(enable_faults, int, 0664);
				107	/* fault rate % value - applies to all enabled faults */
				108	module_param(fault_rate, int, 0664);
				109	/* count of faults inserted */
				110	module_param(fault_count, int, 0664);
				111	/* bitmap of devices to insert faults on */
				112	module_param(fault_devs, int, 0644);
				113	#endif
				114
				115	/* module parameter, defined */
				116	unsigned int minor_count = 32;
				117	int disable_sendpage;
				118	int allow_oos;
				119	unsigned int cn_idx = CN_IDX_DRBD;
				120	int proc_details; /* Detail level in proc drbd*/
				121
				122	/* Module parameter for setting the user mode helper program
				123	* to run. Default is /sbin/drbdadm */
				124	char usermode_helper[80] = "/sbin/drbdadm";
				125
				126	module_param_string(usermode_helper, usermode_helper, sizeof(usermode_helper), 0644);
				127
				128	/* in 2.6.x, our device mapping and config info contains our virtual gendisks
				129	* as member "struct gendisk *vdisk;"
				130	*/
				131	struct drbd_conf **minor_table;
				132
				133	struct kmem_cache *drbd_request_cache;
				134	struct kmem_cache drbd_ee_cache; / epoch entries */
				135	struct kmem_cache drbd_bm_ext_cache; / bitmap extents */
				136	struct kmem_cache drbd_al_ext_cache; / activity log extents */
				137	mempool_t *drbd_request_mempool;
				138	mempool_t *drbd_ee_mempool;
				139
				140	/* I do not use a standard mempool, because:
				141	1) I want to hand out the pre-allocated objects first.
				142	2) I want to be able to interrupt sleeping allocation with a signal.
				143	Note: This is a single linked list, the next pointer is the private
				144	member of struct page.
				145	*/
				146	struct page *drbd_pp_pool;
				147	spinlock_t drbd_pp_lock;
				148	int drbd_pp_vacant;
				149	wait_queue_head_t drbd_pp_wait;
				150
				151	DEFINE_RATELIMIT_STATE(drbd_ratelimit_state, 5 * HZ, 5);
				152
Emese Revfy	7d4e9d0	2009-12-14 00:59:30 +0100	[diff] [blame]	153	static const struct block_device_operations drbd_ops = {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	154	.owner = THIS_MODULE,
				155	.open = drbd_open,
				156	.release = drbd_release,
				157	};
				158
				159	#define ARRY_SIZE(A) (sizeof(A)/sizeof(A[0]))
				160
				161	#ifdef __CHECKER__
				162	/* When checking with sparse, and this is an inline function, sparse will
				163	give tons of false positives. When this is a real functions sparse works.
				164	*/
				165	int _get_ldev_if_state(struct drbd_conf *mdev, enum drbd_disk_state mins)
				166	{
				167	int io_allowed;
				168
				169	atomic_inc(&mdev->local_cnt);
				170	io_allowed = (mdev->state.disk >= mins);
				171	if (!io_allowed) {
				172	if (atomic_dec_and_test(&mdev->local_cnt))
				173	wake_up(&mdev->misc_wait);
				174	}
				175	return io_allowed;
				176	}
				177
				178	#endif
				179
				180	/**
				181	* DOC: The transfer log
				182	*
				183	* The transfer log is a single linked list of &struct drbd_tl_epoch objects.
				184	* mdev->newest_tle points to the head, mdev->oldest_tle points to the tail
				185	* of the list. There is always at least one &struct drbd_tl_epoch object.
				186	*
				187	* Each &struct drbd_tl_epoch has a circular double linked list of requests
				188	* attached.
				189	*/
				190	static int tl_init(struct drbd_conf *mdev)
				191	{
				192	struct drbd_tl_epoch *b;
				193
				194	/* during device minor initialization, we may well use GFP_KERNEL */
				195	b = kmalloc(sizeof(struct drbd_tl_epoch), GFP_KERNEL);
				196	if (!b)
				197	return 0;
				198	INIT_LIST_HEAD(&b->requests);
				199	INIT_LIST_HEAD(&b->w.list);
				200	b->next = NULL;
				201	b->br_number = 4711;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	202	b->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	b->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				204
				205	mdev->oldest_tle = b;
				206	mdev->newest_tle = b;
				207	INIT_LIST_HEAD(&mdev->out_of_sequence_requests);
				208
				209	mdev->tl_hash = NULL;
				210	mdev->tl_hash_s = 0;
				211
				212	return 1;
				213	}
				214
				215	static void tl_cleanup(struct drbd_conf *mdev)
				216	{
				217	D_ASSERT(mdev->oldest_tle == mdev->newest_tle);
				218	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				219	kfree(mdev->oldest_tle);
				220	mdev->oldest_tle = NULL;
				221	kfree(mdev->unused_spare_tle);
				222	mdev->unused_spare_tle = NULL;
				223	kfree(mdev->tl_hash);
				224	mdev->tl_hash = NULL;
				225	mdev->tl_hash_s = 0;
				226	}
				227
				228	/**
				229	* _tl_add_barrier() - Adds a barrier to the transfer log
				230	* @mdev: DRBD device.
				231	* @new: Barrier to be added before the current head of the TL.
				232	*
				233	* The caller must hold the req_lock.
				234	*/
				235	void _tl_add_barrier(struct drbd_conf mdev, struct drbd_tl_epoch new)
				236	{
				237	struct drbd_tl_epoch *newest_before;
				238
				239	INIT_LIST_HEAD(&new->requests);
				240	INIT_LIST_HEAD(&new->w.list);
				241	new->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				242	new->next = NULL;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	243	new->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	244
				245	newest_before = mdev->newest_tle;
				246	/* never send a barrier number == 0, because that is special-cased
				247	* when using TCQ for our write ordering code */
				248	new->br_number = (newest_before->br_number+1) ?: 1;
				249	if (mdev->newest_tle != new) {
				250	mdev->newest_tle->next = new;
				251	mdev->newest_tle = new;
				252	}
				253	}
				254
				255	/**
				256	* tl_release() - Free or recycle the oldest &struct drbd_tl_epoch object of the TL
				257	* @mdev: DRBD device.
				258	* @barrier_nr: Expected identifier of the DRBD write barrier packet.
				259	* @set_size: Expected number of requests before that barrier.
				260	*
				261	* In case the passed barrier_nr or set_size does not match the oldest
				262	* &struct drbd_tl_epoch objects this function will cause a termination
				263	* of the connection.
				264	*/
				265	void tl_release(struct drbd_conf *mdev, unsigned int barrier_nr,
				266	unsigned int set_size)
				267	{
				268	struct drbd_tl_epoch b, nob; /* next old barrier */
				269	struct list_head le, tle;
				270	struct drbd_request *r;
				271
				272	spin_lock_irq(&mdev->req_lock);
				273
				274	b = mdev->oldest_tle;
				275
				276	/* first some paranoia code */
				277	if (b == NULL) {
				278	dev_err(DEV, "BAD! BarrierAck #%u received, but no epoch in tl!?\n",
				279	barrier_nr);
				280	goto bail;
				281	}
				282	if (b->br_number != barrier_nr) {
				283	dev_err(DEV, "BAD! BarrierAck #%u received, expected #%u!\n",
				284	barrier_nr, b->br_number);
				285	goto bail;
				286	}
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	287	if (b->n_writes != set_size) {
				288	dev_err(DEV, "BAD! BarrierAck #%u received with n_writes=%u, expected n_writes=%u!\n",
				289	barrier_nr, set_size, b->n_writes);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	290	goto bail;
				291	}
				292
				293	/* Clean up list of requests processed during current epoch */
				294	list_for_each_safe(le, tle, &b->requests) {
				295	r = list_entry(le, struct drbd_request, tl_requests);
				296	_req_mod(r, barrier_acked);
				297	}
				298	/* There could be requests on the list waiting for completion
				299	of the write to the local disk. To avoid corruptions of
				300	slab's data structures we have to remove the lists head.
				301
				302	Also there could have been a barrier ack out of sequence, overtaking
				303	the write acks - which would be a bug and violating write ordering.
				304	To not deadlock in case we lose connection while such requests are
				305	still pending, we need some way to find them for the
				306	_req_mode(connection_lost_while_pending).
				307
				308	These have been list_move'd to the out_of_sequence_requests list in
				309	_req_mod(, barrier_acked) above.
				310	*/
				311	list_del_init(&b->requests);
				312
				313	nob = b->next;
				314	if (test_and_clear_bit(CREATE_BARRIER, &mdev->flags)) {
				315	_tl_add_barrier(mdev, b);
				316	if (nob)
				317	mdev->oldest_tle = nob;
				318	/* if nob == NULL b was the only barrier, and becomes the new
				319	barrier. Therefore mdev->oldest_tle points already to b */
				320	} else {
				321	D_ASSERT(nob != NULL);
				322	mdev->oldest_tle = nob;
				323	kfree(b);
				324	}
				325
				326	spin_unlock_irq(&mdev->req_lock);
				327	dec_ap_pending(mdev);
				328
				329	return;
				330
				331	bail:
				332	spin_unlock_irq(&mdev->req_lock);
				333	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				334	}
				335
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	336	/**
				337	* _tl_restart() - Walks the transfer log, and applies an action to all requests
				338	* @mdev: DRBD device.
				339	* @what: The action/event to perform with all request objects
				340	*
				341	* @what might be one of connection_lost_while_pending, resend, fail_frozen_disk_io,
				342	* restart_frozen_disk_io.
				343	*/
				344	static void _tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				345	{
				346	struct drbd_tl_epoch b, tmp, **pn;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	347	struct list_head le, tle, carry_reads;
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	348	struct drbd_request *req;
				349	int rv, n_writes, n_reads;
				350
				351	b = mdev->oldest_tle;
				352	pn = &mdev->oldest_tle;
				353	while (b) {
				354	n_writes = 0;
				355	n_reads = 0;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	356	INIT_LIST_HEAD(&carry_reads);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	357	list_for_each_safe(le, tle, &b->requests) {
				358	req = list_entry(le, struct drbd_request, tl_requests);
				359	rv = _req_mod(req, what);
				360
				361	n_writes += (rv & MR_WRITE) >> MR_WRITE_SHIFT;
				362	n_reads += (rv & MR_READ) >> MR_READ_SHIFT;
				363	}
				364	tmp = b->next;
				365
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	366	if (n_writes) {
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	367	if (what == resend) {
				368	b->n_writes = n_writes;
				369	if (b->w.cb == NULL) {
				370	b->w.cb = w_send_barrier;
				371	inc_ap_pending(mdev);
				372	set_bit(CREATE_BARRIER, &mdev->flags);
				373	}
				374
				375	drbd_queue_work(&mdev->data.work, &b->w);
				376	}
				377	pn = &b->next;
				378	} else {
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	379	if (n_reads)
				380	list_add(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	381	/* there could still be requests on that ring list,
				382	* in case local io is still pending */
				383	list_del(&b->requests);
				384
				385	/* dec_ap_pending corresponding to queue_barrier.
				386	* the newest barrier may not have been queued yet,
				387	* in which case w.cb is still NULL. */
				388	if (b->w.cb != NULL)
				389	dec_ap_pending(mdev);
				390
				391	if (b == mdev->newest_tle) {
				392	/* recycle, but reinit! */
				393	D_ASSERT(tmp == NULL);
				394	INIT_LIST_HEAD(&b->requests);
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	395	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	396	INIT_LIST_HEAD(&b->w.list);
				397	b->w.cb = NULL;
				398	b->br_number = net_random();
				399	b->n_writes = 0;
				400
				401	*pn = b;
				402	break;
				403	}
				404	*pn = tmp;
				405	kfree(b);
				406	}
				407	b = tmp;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	408	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	409	}
				410	}
				411
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	412
				413	/**
				414	* tl_clear() - Clears all requests and &struct drbd_tl_epoch objects out of the TL
				415	* @mdev: DRBD device.
				416	*
				417	* This is called after the connection to the peer was lost. The storage covered
				418	* by the requests on the transfer gets marked as our of sync. Called from the
				419	* receiver thread and the worker thread.
				420	*/
				421	void tl_clear(struct drbd_conf *mdev)
				422	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	423	struct list_head le, tle;
				424	struct drbd_request *r;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	425
				426	spin_lock_irq(&mdev->req_lock);
				427
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	428	_tl_restart(mdev, connection_lost_while_pending);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	429
				430	/* we expect this list to be empty. */
				431	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				432
				433	/* but just in case, clean it up anyways! */
				434	list_for_each_safe(le, tle, &mdev->out_of_sequence_requests) {
				435	r = list_entry(le, struct drbd_request, tl_requests);
				436	/* It would be nice to complete outside of spinlock.
				437	* But this is easier for now. */
				438	_req_mod(r, connection_lost_while_pending);
				439	}
				440
				441	/* ensure bit indicating barrier is required is clear */
				442	clear_bit(CREATE_BARRIER, &mdev->flags);
				443
Philipp Reisner	288f422	2010-05-27 15:07:43 +0200	[diff] [blame]	444	memset(mdev->app_reads_hash, 0, APP_R_HSIZEsizeof(void ));
				445
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	446	spin_unlock_irq(&mdev->req_lock);
				447	}
				448
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	449	void tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				450	{
				451	spin_lock_irq(&mdev->req_lock);
				452	_tl_restart(mdev, what);
				453	spin_unlock_irq(&mdev->req_lock);
				454	}
				455
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	456	/**
				457	* cl_wide_st_chg() - TRUE if the state change is a cluster wide one
				458	* @mdev: DRBD device.
				459	* @os: old (current) state.
				460	* @ns: new (wanted) state.
				461	*/
				462	static int cl_wide_st_chg(struct drbd_conf *mdev,
				463	union drbd_state os, union drbd_state ns)
				464	{
				465	return (os.conn >= C_CONNECTED && ns.conn >= C_CONNECTED &&
				466	((os.role != R_PRIMARY && ns.role == R_PRIMARY) \|\|
				467	(os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				468	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S) \|\|
				469	(os.disk != D_DISKLESS && ns.disk == D_DISKLESS))) \|\|
				470	(os.conn >= C_CONNECTED && ns.conn == C_DISCONNECTING) \|\|
				471	(os.conn == C_CONNECTED && ns.conn == C_VERIFY_S);
				472	}
				473
				474	int drbd_change_state(struct drbd_conf *mdev, enum chg_state_flags f,
				475	union drbd_state mask, union drbd_state val)
				476	{
				477	unsigned long flags;
				478	union drbd_state os, ns;
				479	int rv;
				480
				481	spin_lock_irqsave(&mdev->req_lock, flags);
				482	os = mdev->state;
				483	ns.i = (os.i & ~mask.i) \| val.i;
				484	rv = _drbd_set_state(mdev, ns, f, NULL);
				485	ns = mdev->state;
				486	spin_unlock_irqrestore(&mdev->req_lock, flags);
				487
				488	return rv;
				489	}
				490
				491	/**
				492	* drbd_force_state() - Impose a change which happens outside our control on our state
				493	* @mdev: DRBD device.
				494	* @mask: mask of state bits to change.
				495	* @val: value of new state bits.
				496	*/
				497	void drbd_force_state(struct drbd_conf *mdev,
				498	union drbd_state mask, union drbd_state val)
				499	{
				500	drbd_change_state(mdev, CS_HARD, mask, val);
				501	}
				502
				503	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns);
				504	static int is_valid_state_transition(struct drbd_conf *,
				505	union drbd_state, union drbd_state);
				506	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
				507	union drbd_state ns, int *warn_sync_abort);
				508	int drbd_send_state_req(struct drbd_conf *,
				509	union drbd_state, union drbd_state);
				510
				511	static enum drbd_state_ret_codes _req_st_cond(struct drbd_conf *mdev,
				512	union drbd_state mask, union drbd_state val)
				513	{
				514	union drbd_state os, ns;
				515	unsigned long flags;
				516	int rv;
				517
				518	if (test_and_clear_bit(CL_ST_CHG_SUCCESS, &mdev->flags))
				519	return SS_CW_SUCCESS;
				520
				521	if (test_and_clear_bit(CL_ST_CHG_FAIL, &mdev->flags))
				522	return SS_CW_FAILED_BY_PEER;
				523
				524	rv = 0;
				525	spin_lock_irqsave(&mdev->req_lock, flags);
				526	os = mdev->state;
				527	ns.i = (os.i & ~mask.i) \| val.i;
				528	ns = sanitize_state(mdev, os, ns, NULL);
				529
				530	if (!cl_wide_st_chg(mdev, os, ns))
				531	rv = SS_CW_NO_NEED;
				532	if (!rv) {
				533	rv = is_valid_state(mdev, ns);
				534	if (rv == SS_SUCCESS) {
				535	rv = is_valid_state_transition(mdev, ns, os);
				536	if (rv == SS_SUCCESS)
				537	rv = 0; /* cont waiting, otherwise fail. */
				538	}
				539	}
				540	spin_unlock_irqrestore(&mdev->req_lock, flags);
				541
				542	return rv;
				543	}
				544
				545	/**
				546	* drbd_req_state() - Perform an eventually cluster wide state change
				547	* @mdev: DRBD device.
				548	* @mask: mask of state bits to change.
				549	* @val: value of new state bits.
				550	* @f: flags
				551	*
				552	* Should not be called directly, use drbd_request_state() or
				553	* _drbd_request_state().
				554	*/
				555	static int drbd_req_state(struct drbd_conf *mdev,
				556	union drbd_state mask, union drbd_state val,
				557	enum chg_state_flags f)
				558	{
				559	struct completion done;
				560	unsigned long flags;
				561	union drbd_state os, ns;
				562	int rv;
				563
				564	init_completion(&done);
				565
				566	if (f & CS_SERIALIZE)
				567	mutex_lock(&mdev->state_mutex);
				568
				569	spin_lock_irqsave(&mdev->req_lock, flags);
				570	os = mdev->state;
				571	ns.i = (os.i & ~mask.i) \| val.i;
				572	ns = sanitize_state(mdev, os, ns, NULL);
				573
				574	if (cl_wide_st_chg(mdev, os, ns)) {
				575	rv = is_valid_state(mdev, ns);
				576	if (rv == SS_SUCCESS)
				577	rv = is_valid_state_transition(mdev, ns, os);
				578	spin_unlock_irqrestore(&mdev->req_lock, flags);
				579
				580	if (rv < SS_SUCCESS) {
				581	if (f & CS_VERBOSE)
				582	print_st_err(mdev, os, ns, rv);
				583	goto abort;
				584	}
				585
				586	drbd_state_lock(mdev);
				587	if (!drbd_send_state_req(mdev, mask, val)) {
				588	drbd_state_unlock(mdev);
				589	rv = SS_CW_FAILED_BY_PEER;
				590	if (f & CS_VERBOSE)
				591	print_st_err(mdev, os, ns, rv);
				592	goto abort;
				593	}
				594
				595	wait_event(mdev->state_wait,
				596	(rv = _req_st_cond(mdev, mask, val)));
				597
				598	if (rv < SS_SUCCESS) {
				599	drbd_state_unlock(mdev);
				600	if (f & CS_VERBOSE)
				601	print_st_err(mdev, os, ns, rv);
				602	goto abort;
				603	}
				604	spin_lock_irqsave(&mdev->req_lock, flags);
				605	os = mdev->state;
				606	ns.i = (os.i & ~mask.i) \| val.i;
				607	rv = _drbd_set_state(mdev, ns, f, &done);
				608	drbd_state_unlock(mdev);
				609	} else {
				610	rv = _drbd_set_state(mdev, ns, f, &done);
				611	}
				612
				613	spin_unlock_irqrestore(&mdev->req_lock, flags);
				614
				615	if (f & CS_WAIT_COMPLETE && rv == SS_SUCCESS) {
				616	D_ASSERT(current != mdev->worker.task);
				617	wait_for_completion(&done);
				618	}
				619
				620	abort:
				621	if (f & CS_SERIALIZE)
				622	mutex_unlock(&mdev->state_mutex);
				623
				624	return rv;
				625	}
				626
				627	/**
				628	* _drbd_request_state() - Request a state change (with flags)
				629	* @mdev: DRBD device.
				630	* @mask: mask of state bits to change.
				631	* @val: value of new state bits.
				632	* @f: flags
				633	*
				634	* Cousin of drbd_request_state(), useful with the CS_WAIT_COMPLETE
				635	* flag, or when logging of failed state change requests is not desired.
				636	*/
				637	int _drbd_request_state(struct drbd_conf *mdev, union drbd_state mask,
				638	union drbd_state val, enum chg_state_flags f)
				639	{
				640	int rv;
				641
				642	wait_event(mdev->state_wait,
				643	(rv = drbd_req_state(mdev, mask, val, f)) != SS_IN_TRANSIENT_STATE);
				644
				645	return rv;
				646	}
				647
				648	static void print_st(struct drbd_conf mdev, char name, union drbd_state ns)
				649	{
				650	dev_err(DEV, " %s = { cs:%s ro:%s/%s ds:%s/%s %c%c%c%c }\n",
				651	name,
				652	drbd_conn_str(ns.conn),
				653	drbd_role_str(ns.role),
				654	drbd_role_str(ns.peer),
				655	drbd_disk_str(ns.disk),
				656	drbd_disk_str(ns.pdsk),
				657	ns.susp ? 's' : 'r',
				658	ns.aftr_isp ? 'a' : '-',
				659	ns.peer_isp ? 'p' : '-',
				660	ns.user_isp ? 'u' : '-'
				661	);
				662	}
				663
				664	void print_st_err(struct drbd_conf *mdev,
				665	union drbd_state os, union drbd_state ns, int err)
				666	{
				667	if (err == SS_IN_TRANSIENT_STATE)
				668	return;
				669	dev_err(DEV, "State change failed: %s\n", drbd_set_st_err_str(err));
				670	print_st(mdev, " state", os);
				671	print_st(mdev, "wanted", ns);
				672	}
				673
				674
				675	#define drbd_peer_str drbd_role_str
				676	#define drbd_pdsk_str drbd_disk_str
				677
				678	#define drbd_susp_str(A) ((A) ? "1" : "0")
				679	#define drbd_aftr_isp_str(A) ((A) ? "1" : "0")
				680	#define drbd_peer_isp_str(A) ((A) ? "1" : "0")
				681	#define drbd_user_isp_str(A) ((A) ? "1" : "0")
				682
				683	#define PSC(A) \
				684	({ if (ns.A != os.A) { \
				685	pbp += sprintf(pbp, #A "( %s -> %s ) ", \
				686	drbd_##A##_str(os.A), \
				687	drbd_##A##_str(ns.A)); \
				688	} })
				689
				690	/**
				691	* is_valid_state() - Returns an SS_ error code if ns is not valid
				692	* @mdev: DRBD device.
				693	* @ns: State to consider.
				694	*/
				695	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns)
				696	{
				697	/* See drbd_state_sw_errors in drbd_strings.c */
				698
				699	enum drbd_fencing_p fp;
				700	int rv = SS_SUCCESS;
				701
				702	fp = FP_DONT_CARE;
				703	if (get_ldev(mdev)) {
				704	fp = mdev->ldev->dc.fencing;
				705	put_ldev(mdev);
				706	}
				707
				708	if (get_net_conf(mdev)) {
				709	if (!mdev->net_conf->two_primaries &&
				710	ns.role == R_PRIMARY && ns.peer == R_PRIMARY)
				711	rv = SS_TWO_PRIMARIES;
				712	put_net_conf(mdev);
				713	}
				714
				715	if (rv <= 0)
				716	/* already found a reason to abort */;
				717	else if (ns.role == R_SECONDARY && mdev->open_cnt)
				718	rv = SS_DEVICE_IN_USE;
				719
				720	else if (ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.disk < D_UP_TO_DATE)
				721	rv = SS_NO_UP_TO_DATE_DISK;
				722
				723	else if (fp >= FP_RESOURCE &&
				724	ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk >= D_UNKNOWN)
				725	rv = SS_PRIMARY_NOP;
				726
				727	else if (ns.role == R_PRIMARY && ns.disk <= D_INCONSISTENT && ns.pdsk <= D_INCONSISTENT)
				728	rv = SS_NO_UP_TO_DATE_DISK;
				729
				730	else if (ns.conn > C_CONNECTED && ns.disk < D_INCONSISTENT)
				731	rv = SS_NO_LOCAL_DISK;
				732
				733	else if (ns.conn > C_CONNECTED && ns.pdsk < D_INCONSISTENT)
				734	rv = SS_NO_REMOTE_DISK;
				735
Lars Ellenberg	8d4ce82	2010-04-01 16:59:32 +0200	[diff] [blame]	736	else if (ns.conn > C_CONNECTED && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE)
				737	rv = SS_NO_UP_TO_DATE_DISK;
				738
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	739	else if ((ns.conn == C_CONNECTED \|\|
				740	ns.conn == C_WF_BITMAP_S \|\|
				741	ns.conn == C_SYNC_SOURCE \|\|
				742	ns.conn == C_PAUSED_SYNC_S) &&
				743	ns.disk == D_OUTDATED)
				744	rv = SS_CONNECTED_OUTDATES;
				745
				746	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				747	(mdev->sync_conf.verify_alg[0] == 0))
				748	rv = SS_NO_VERIFY_ALG;
				749
				750	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				751	mdev->agreed_pro_version < 88)
				752	rv = SS_NOT_SUPPORTED;
				753
				754	return rv;
				755	}
				756
				757	/**
				758	* is_valid_state_transition() - Returns an SS_ error code if the state transition is not possible
				759	* @mdev: DRBD device.
				760	* @ns: new state.
				761	* @os: old state.
				762	*/
				763	static int is_valid_state_transition(struct drbd_conf *mdev,
				764	union drbd_state ns, union drbd_state os)
				765	{
				766	int rv = SS_SUCCESS;
				767
				768	if ((ns.conn == C_STARTING_SYNC_T \|\| ns.conn == C_STARTING_SYNC_S) &&
				769	os.conn > C_CONNECTED)
				770	rv = SS_RESYNC_RUNNING;
				771
				772	if (ns.conn == C_DISCONNECTING && os.conn == C_STANDALONE)
				773	rv = SS_ALREADY_STANDALONE;
				774
				775	if (ns.disk > D_ATTACHING && os.disk == D_DISKLESS)
				776	rv = SS_IS_DISKLESS;
				777
				778	if (ns.conn == C_WF_CONNECTION && os.conn < C_UNCONNECTED)
				779	rv = SS_NO_NET_CONFIG;
				780
				781	if (ns.disk == D_OUTDATED && os.disk < D_OUTDATED && os.disk != D_ATTACHING)
				782	rv = SS_LOWER_THAN_OUTDATED;
				783
				784	if (ns.conn == C_DISCONNECTING && os.conn == C_UNCONNECTED)
				785	rv = SS_IN_TRANSIENT_STATE;
				786
				787	if (ns.conn == os.conn && ns.conn == C_WF_REPORT_PARAMS)
				788	rv = SS_IN_TRANSIENT_STATE;
				789
				790	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) && os.conn < C_CONNECTED)
				791	rv = SS_NEED_CONNECTION;
				792
				793	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				794	ns.conn != os.conn && os.conn > C_CONNECTED)
				795	rv = SS_RESYNC_RUNNING;
				796
				797	if ((ns.conn == C_STARTING_SYNC_S \|\| ns.conn == C_STARTING_SYNC_T) &&
				798	os.conn < C_CONNECTED)
				799	rv = SS_NEED_CONNECTION;
				800
				801	return rv;
				802	}
				803
				804	/**
				805	* sanitize_state() - Resolves implicitly necessary additional changes to a state transition
				806	* @mdev: DRBD device.
				807	* @os: old state.
				808	* @ns: new state.
				809	* @warn_sync_abort:
				810	*
				811	* When we loose connection, we have to set the state of the peers disk (pdsk)
				812	* to D_UNKNOWN. This rule and many more along those lines are in this function.
				813	*/
				814	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
				815	union drbd_state ns, int *warn_sync_abort)
				816	{
				817	enum drbd_fencing_p fp;
				818
				819	fp = FP_DONT_CARE;
				820	if (get_ldev(mdev)) {
				821	fp = mdev->ldev->dc.fencing;
				822	put_ldev(mdev);
				823	}
				824
				825	/* Disallow Network errors to configure a device's network part */
				826	if ((ns.conn >= C_TIMEOUT && ns.conn <= C_TEAR_DOWN) &&
				827	os.conn <= C_DISCONNECTING)
				828	ns.conn = os.conn;
				829
				830	/* After a network error (+C_TEAR_DOWN) only C_UNCONNECTED or C_DISCONNECTING can follow */
				831	if (os.conn >= C_TIMEOUT && os.conn <= C_TEAR_DOWN &&
				832	ns.conn != C_UNCONNECTED && ns.conn != C_DISCONNECTING)
				833	ns.conn = os.conn;
				834
				835	/* After C_DISCONNECTING only C_STANDALONE may follow */
				836	if (os.conn == C_DISCONNECTING && ns.conn != C_STANDALONE)
				837	ns.conn = os.conn;
				838
				839	if (ns.conn < C_CONNECTED) {
				840	ns.peer_isp = 0;
				841	ns.peer = R_UNKNOWN;
				842	if (ns.pdsk > D_UNKNOWN \|\| ns.pdsk < D_INCONSISTENT)
				843	ns.pdsk = D_UNKNOWN;
				844	}
				845
				846	/* Clear the aftr_isp when becoming unconfigured */
				847	if (ns.conn == C_STANDALONE && ns.disk == D_DISKLESS && ns.role == R_SECONDARY)
				848	ns.aftr_isp = 0;
				849
				850	if (ns.conn <= C_DISCONNECTING && ns.disk == D_DISKLESS)
				851	ns.pdsk = D_UNKNOWN;
				852
				853	/* Abort resync if a disk fails/detaches */
				854	if (os.conn > C_CONNECTED && ns.conn > C_CONNECTED &&
				855	(ns.disk <= D_FAILED \|\| ns.pdsk <= D_FAILED)) {
				856	if (warn_sync_abort)
				857	*warn_sync_abort = 1;
				858	ns.conn = C_CONNECTED;
				859	}
				860
				861	if (ns.conn >= C_CONNECTED &&
				862	((ns.disk == D_CONSISTENT \|\| ns.disk == D_OUTDATED) \|\|
				863	(ns.disk == D_NEGOTIATING && ns.conn == C_WF_BITMAP_T))) {
				864	switch (ns.conn) {
				865	case C_WF_BITMAP_T:
				866	case C_PAUSED_SYNC_T:
				867	ns.disk = D_OUTDATED;
				868	break;
				869	case C_CONNECTED:
				870	case C_WF_BITMAP_S:
				871	case C_SYNC_SOURCE:
				872	case C_PAUSED_SYNC_S:
				873	ns.disk = D_UP_TO_DATE;
				874	break;
				875	case C_SYNC_TARGET:
				876	ns.disk = D_INCONSISTENT;
				877	dev_warn(DEV, "Implicitly set disk state Inconsistent!\n");
				878	break;
				879	}
				880	if (os.disk == D_OUTDATED && ns.disk == D_UP_TO_DATE)
				881	dev_warn(DEV, "Implicitly set disk from Outdated to UpToDate\n");
				882	}
				883
				884	if (ns.conn >= C_CONNECTED &&
				885	(ns.pdsk == D_CONSISTENT \|\| ns.pdsk == D_OUTDATED)) {
				886	switch (ns.conn) {
				887	case C_CONNECTED:
				888	case C_WF_BITMAP_T:
				889	case C_PAUSED_SYNC_T:
				890	case C_SYNC_TARGET:
				891	ns.pdsk = D_UP_TO_DATE;
				892	break;
				893	case C_WF_BITMAP_S:
				894	case C_PAUSED_SYNC_S:
Lars Ellenberg	e0f8301	2010-04-01 15:13:19 +0200	[diff] [blame]	895	/* remap any consistent state to D_OUTDATED,
				896	* but disallow "upgrade" of not even consistent states.
				897	*/
				898	ns.pdsk =
				899	(D_DISKLESS < os.pdsk && os.pdsk < D_OUTDATED)
				900	? os.pdsk : D_OUTDATED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	901	break;
				902	case C_SYNC_SOURCE:
				903	ns.pdsk = D_INCONSISTENT;
				904	dev_warn(DEV, "Implicitly set pdsk Inconsistent!\n");
				905	break;
				906	}
				907	if (os.pdsk == D_OUTDATED && ns.pdsk == D_UP_TO_DATE)
				908	dev_warn(DEV, "Implicitly set pdsk from Outdated to UpToDate\n");
				909	}
				910
				911	/* Connection breaks down before we finished "Negotiating" */
				912	if (ns.conn < C_CONNECTED && ns.disk == D_NEGOTIATING &&
				913	get_ldev_if_state(mdev, D_NEGOTIATING)) {
				914	if (mdev->ed_uuid == mdev->ldev->md.uuid[UI_CURRENT]) {
				915	ns.disk = mdev->new_state_tmp.disk;
				916	ns.pdsk = mdev->new_state_tmp.pdsk;
				917	} else {
				918	dev_alert(DEV, "Connection lost while negotiating, no data!\n");
				919	ns.disk = D_DISKLESS;
				920	ns.pdsk = D_UNKNOWN;
				921	}
				922	put_ldev(mdev);
				923	}
				924
				925	if (fp == FP_STONITH &&
Philipp Reisner	0a49216	2009-10-21 13:08:29 +0200	[diff] [blame]	926	(ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk > D_OUTDATED) &&
				927	!(os.role == R_PRIMARY && os.conn < C_CONNECTED && os.pdsk > D_OUTDATED))
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	928	ns.susp = 1; /* Suspend IO while fence-peer handler runs (peer lost) */
				929
				930	if (mdev->sync_conf.on_no_data == OND_SUSPEND_IO &&
				931	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE) &&
				932	!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE))
				933	ns.susp = 1; /* Suspend IO while no data available (no accessible data available) */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	934
				935	if (ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp) {
				936	if (ns.conn == C_SYNC_SOURCE)
				937	ns.conn = C_PAUSED_SYNC_S;
				938	if (ns.conn == C_SYNC_TARGET)
				939	ns.conn = C_PAUSED_SYNC_T;
				940	} else {
				941	if (ns.conn == C_PAUSED_SYNC_S)
				942	ns.conn = C_SYNC_SOURCE;
				943	if (ns.conn == C_PAUSED_SYNC_T)
				944	ns.conn = C_SYNC_TARGET;
				945	}
				946
				947	return ns;
				948	}
				949
				950	/* helper for __drbd_set_state */
				951	static void set_ov_position(struct drbd_conf *mdev, enum drbd_conns cs)
				952	{
				953	if (cs == C_VERIFY_T) {
				954	/* starting online verify from an arbitrary position
				955	* does not fit well into the existing protocol.
				956	* on C_VERIFY_T, we initialize ov_left and friends
				957	* implicitly in receive_DataRequest once the
				958	* first P_OV_REQUEST is received */
				959	mdev->ov_start_sector = ~(sector_t)0;
				960	} else {
				961	unsigned long bit = BM_SECT_TO_BIT(mdev->ov_start_sector);
				962	if (bit >= mdev->rs_total)
				963	mdev->ov_start_sector =
				964	BM_BIT_TO_SECT(mdev->rs_total - 1);
				965	mdev->ov_position = mdev->ov_start_sector;
				966	}
				967	}
				968
				969	/**
				970	* __drbd_set_state() - Set a new DRBD state
				971	* @mdev: DRBD device.
				972	* @ns: new state.
				973	* @flags: Flags
				974	* @done: Optional completion, that will get completed after the after_state_ch() finished
				975	*
				976	* Caller needs to hold req_lock, and global_state_lock. Do not call directly.
				977	*/
				978	int __drbd_set_state(struct drbd_conf *mdev,
				979	union drbd_state ns, enum chg_state_flags flags,
				980	struct completion *done)
				981	{
				982	union drbd_state os;
				983	int rv = SS_SUCCESS;
				984	int warn_sync_abort = 0;
				985	struct after_state_chg_work *ascw;
				986
				987	os = mdev->state;
				988
				989	ns = sanitize_state(mdev, os, ns, &warn_sync_abort);
				990
				991	if (ns.i == os.i)
				992	return SS_NOTHING_TO_DO;
				993
				994	if (!(flags & CS_HARD)) {
				995	/* pre-state-change checks ; only look at ns */
				996	/* See drbd_state_sw_errors in drbd_strings.c */
				997
				998	rv = is_valid_state(mdev, ns);
				999	if (rv < SS_SUCCESS) {
				1000	/* If the old state was illegal as well, then let
				1001	this happen...*/
				1002
				1003	if (is_valid_state(mdev, os) == rv) {
				1004	dev_err(DEV, "Considering state change from bad state. "
				1005	"Error would be: '%s'\n",
				1006	drbd_set_st_err_str(rv));
				1007	print_st(mdev, "old", os);
				1008	print_st(mdev, "new", ns);
				1009	rv = is_valid_state_transition(mdev, ns, os);
				1010	}
				1011	} else
				1012	rv = is_valid_state_transition(mdev, ns, os);
				1013	}
				1014
				1015	if (rv < SS_SUCCESS) {
				1016	if (flags & CS_VERBOSE)
				1017	print_st_err(mdev, os, ns, rv);
				1018	return rv;
				1019	}
				1020
				1021	if (warn_sync_abort)
				1022	dev_warn(DEV, "Resync aborted.\n");
				1023
				1024	{
				1025	char *pbp, pb[300];
				1026	pbp = pb;
				1027	*pbp = 0;
				1028	PSC(role);
				1029	PSC(peer);
				1030	PSC(conn);
				1031	PSC(disk);
				1032	PSC(pdsk);
				1033	PSC(susp);
				1034	PSC(aftr_isp);
				1035	PSC(peer_isp);
				1036	PSC(user_isp);
				1037	dev_info(DEV, "%s\n", pb);
				1038	}
				1039
				1040	/* solve the race between becoming unconfigured,
				1041	* worker doing the cleanup, and
				1042	* admin reconfiguring us:
				1043	* on (re)configure, first set CONFIG_PENDING,
				1044	* then wait for a potentially exiting worker,
				1045	* start the worker, and schedule one no_op.
				1046	* then proceed with configuration.
				1047	*/
				1048	if (ns.disk == D_DISKLESS &&
				1049	ns.conn == C_STANDALONE &&
				1050	ns.role == R_SECONDARY &&
				1051	!test_and_set_bit(CONFIG_PENDING, &mdev->flags))
				1052	set_bit(DEVICE_DYING, &mdev->flags);
				1053
				1054	mdev->state.i = ns.i;
				1055	wake_up(&mdev->misc_wait);
				1056	wake_up(&mdev->state_wait);
				1057
				1058	/* post-state-change actions */
				1059	if (os.conn >= C_SYNC_SOURCE && ns.conn <= C_CONNECTED) {
				1060	set_bit(STOP_SYNC_TIMER, &mdev->flags);
				1061	mod_timer(&mdev->resync_timer, jiffies);
				1062	}
				1063
				1064	/* aborted verify run. log the last position */
				1065	if ((os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) &&
				1066	ns.conn < C_CONNECTED) {
				1067	mdev->ov_start_sector =
				1068	BM_BIT_TO_SECT(mdev->rs_total - mdev->ov_left);
				1069	dev_info(DEV, "Online Verify reached sector %llu\n",
				1070	(unsigned long long)mdev->ov_start_sector);
				1071	}
				1072
				1073	if ((os.conn == C_PAUSED_SYNC_T \|\| os.conn == C_PAUSED_SYNC_S) &&
				1074	(ns.conn == C_SYNC_TARGET \|\| ns.conn == C_SYNC_SOURCE)) {
				1075	dev_info(DEV, "Syncer continues.\n");
				1076	mdev->rs_paused += (long)jiffies-(long)mdev->rs_mark_time;
				1077	if (ns.conn == C_SYNC_TARGET) {
				1078	if (!test_and_clear_bit(STOP_SYNC_TIMER, &mdev->flags))
				1079	mod_timer(&mdev->resync_timer, jiffies);
				1080	/* This if (!test_bit) is only needed for the case
				1081	that a device that has ceased to used its timer,
				1082	i.e. it is already in drbd_resync_finished() gets
				1083	paused and resumed. */
				1084	}
				1085	}
				1086
				1087	if ((os.conn == C_SYNC_TARGET \|\| os.conn == C_SYNC_SOURCE) &&
				1088	(ns.conn == C_PAUSED_SYNC_T \|\| ns.conn == C_PAUSED_SYNC_S)) {
				1089	dev_info(DEV, "Resync suspended\n");
				1090	mdev->rs_mark_time = jiffies;
				1091	if (ns.conn == C_PAUSED_SYNC_T)
				1092	set_bit(STOP_SYNC_TIMER, &mdev->flags);
				1093	}
				1094
				1095	if (os.conn == C_CONNECTED &&
				1096	(ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T)) {
				1097	mdev->ov_position = 0;
				1098	mdev->rs_total =
				1099	mdev->rs_mark_left = drbd_bm_bits(mdev);
				1100	if (mdev->agreed_pro_version >= 90)
				1101	set_ov_position(mdev, ns.conn);
				1102	else
				1103	mdev->ov_start_sector = 0;
				1104	mdev->ov_left = mdev->rs_total
				1105	- BM_SECT_TO_BIT(mdev->ov_position);
				1106	mdev->rs_start =
				1107	mdev->rs_mark_time = jiffies;
				1108	mdev->ov_last_oos_size = 0;
				1109	mdev->ov_last_oos_start = 0;
				1110
				1111	if (ns.conn == C_VERIFY_S) {
				1112	dev_info(DEV, "Starting Online Verify from sector %llu\n",
				1113	(unsigned long long)mdev->ov_position);
				1114	mod_timer(&mdev->resync_timer, jiffies);
				1115	}
				1116	}
				1117
				1118	if (get_ldev(mdev)) {
				1119	u32 mdf = mdev->ldev->md.flags & ~(MDF_CONSISTENT\|MDF_PRIMARY_IND\|
				1120	MDF_CONNECTED_IND\|MDF_WAS_UP_TO_DATE\|
				1121	MDF_PEER_OUT_DATED\|MDF_CRASHED_PRIMARY);
				1122
				1123	if (test_bit(CRASHED_PRIMARY, &mdev->flags))
				1124	mdf \|= MDF_CRASHED_PRIMARY;
				1125	if (mdev->state.role == R_PRIMARY \|\|
				1126	(mdev->state.pdsk < D_INCONSISTENT && mdev->state.peer == R_PRIMARY))
				1127	mdf \|= MDF_PRIMARY_IND;
				1128	if (mdev->state.conn > C_WF_REPORT_PARAMS)
				1129	mdf \|= MDF_CONNECTED_IND;
				1130	if (mdev->state.disk > D_INCONSISTENT)
				1131	mdf \|= MDF_CONSISTENT;
				1132	if (mdev->state.disk > D_OUTDATED)
				1133	mdf \|= MDF_WAS_UP_TO_DATE;
				1134	if (mdev->state.pdsk <= D_OUTDATED && mdev->state.pdsk >= D_INCONSISTENT)
				1135	mdf \|= MDF_PEER_OUT_DATED;
				1136	if (mdf != mdev->ldev->md.flags) {
				1137	mdev->ldev->md.flags = mdf;
				1138	drbd_md_mark_dirty(mdev);
				1139	}
				1140	if (os.disk < D_CONSISTENT && ns.disk >= D_CONSISTENT)
				1141	drbd_set_ed_uuid(mdev, mdev->ldev->md.uuid[UI_CURRENT]);
				1142	put_ldev(mdev);
				1143	}
				1144
				1145	/* Peer was forced D_UP_TO_DATE & R_PRIMARY, consider to resync */
				1146	if (os.disk == D_INCONSISTENT && os.pdsk == D_INCONSISTENT &&
				1147	os.peer == R_SECONDARY && ns.peer == R_PRIMARY)
				1148	set_bit(CONSIDER_RESYNC, &mdev->flags);
				1149
				1150	/* Receiver should clean up itself */
				1151	if (os.conn != C_DISCONNECTING && ns.conn == C_DISCONNECTING)
				1152	drbd_thread_stop_nowait(&mdev->receiver);
				1153
				1154	/* Now the receiver finished cleaning up itself, it should die */
				1155	if (os.conn != C_STANDALONE && ns.conn == C_STANDALONE)
				1156	drbd_thread_stop_nowait(&mdev->receiver);
				1157
				1158	/* Upon network failure, we need to restart the receiver. */
				1159	if (os.conn > C_TEAR_DOWN &&
				1160	ns.conn <= C_TEAR_DOWN && ns.conn >= C_TIMEOUT)
				1161	drbd_thread_restart_nowait(&mdev->receiver);
				1162
				1163	ascw = kmalloc(sizeof(*ascw), GFP_ATOMIC);
				1164	if (ascw) {
				1165	ascw->os = os;
				1166	ascw->ns = ns;
				1167	ascw->flags = flags;
				1168	ascw->w.cb = w_after_state_ch;
				1169	ascw->done = done;
				1170	drbd_queue_work(&mdev->data.work, &ascw->w);
				1171	} else {
				1172	dev_warn(DEV, "Could not kmalloc an ascw\n");
				1173	}
				1174
				1175	return rv;
				1176	}
				1177
				1178	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused)
				1179	{
				1180	struct after_state_chg_work *ascw =
				1181	container_of(w, struct after_state_chg_work, w);
				1182	after_state_ch(mdev, ascw->os, ascw->ns, ascw->flags);
				1183	if (ascw->flags & CS_WAIT_COMPLETE) {
				1184	D_ASSERT(ascw->done != NULL);
				1185	complete(ascw->done);
				1186	}
				1187	kfree(ascw);
				1188
				1189	return 1;
				1190	}
				1191
				1192	static void abw_start_sync(struct drbd_conf *mdev, int rv)
				1193	{
				1194	if (rv) {
				1195	dev_err(DEV, "Writing the bitmap failed not starting resync.\n");
				1196	_drbd_request_state(mdev, NS(conn, C_CONNECTED), CS_VERBOSE);
				1197	return;
				1198	}
				1199
				1200	switch (mdev->state.conn) {
				1201	case C_STARTING_SYNC_T:
				1202	_drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
				1203	break;
				1204	case C_STARTING_SYNC_S:
				1205	drbd_start_resync(mdev, C_SYNC_SOURCE);
				1206	break;
				1207	}
				1208	}
				1209
				1210	/**
				1211	* after_state_ch() - Perform after state change actions that may sleep
				1212	* @mdev: DRBD device.
				1213	* @os: old state.
				1214	* @ns: new state.
				1215	* @flags: Flags
				1216	*/
				1217	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				1218	union drbd_state ns, enum chg_state_flags flags)
				1219	{
				1220	enum drbd_fencing_p fp;
				1221
				1222	if (os.conn != C_CONNECTED && ns.conn == C_CONNECTED) {
				1223	clear_bit(CRASHED_PRIMARY, &mdev->flags);
				1224	if (mdev->p_uuid)
				1225	mdev->p_uuid[UI_FLAGS] &= ~((u64)2);
				1226	}
				1227
				1228	fp = FP_DONT_CARE;
				1229	if (get_ldev(mdev)) {
				1230	fp = mdev->ldev->dc.fencing;
				1231	put_ldev(mdev);
				1232	}
				1233
				1234	/* Inform userspace about the change... */
				1235	drbd_bcast_state(mdev, ns);
				1236
				1237	if (!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE) &&
				1238	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE))
				1239	drbd_khelper(mdev, "pri-on-incon-degr");
				1240
				1241	/* Here we have the actions that are performed after a
				1242	state change. This function might sleep */
				1243
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1244	if (os.susp && ns.susp && mdev->sync_conf.on_no_data == OND_SUSPEND_IO) {
				1245	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
				1246	if (ns.conn == C_CONNECTED) {
				1247	spin_lock_irq(&mdev->req_lock);
				1248	_tl_restart(mdev, resend);
				1249	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1250	spin_unlock_irq(&mdev->req_lock);
				1251	} else /* ns.conn > C_CONNECTED */
				1252	dev_err(DEV, "Unexpected Resynd going on!\n");
				1253	}
				1254
				1255	if (os.disk == D_ATTACHING && ns.disk > D_ATTACHING) {
				1256	spin_lock_irq(&mdev->req_lock);
				1257	_tl_restart(mdev, restart_frozen_disk_io);
				1258	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1259	spin_unlock_irq(&mdev->req_lock);
				1260	}
				1261	}
				1262
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1263	if (fp == FP_STONITH && ns.susp) {
				1264	/* case1: The outdate peer handler is successful:
				1265	* case2: The connection was established again: */
				1266	if ((os.pdsk > D_OUTDATED && ns.pdsk <= D_OUTDATED) \|\|
				1267	(os.conn < C_CONNECTED && ns.conn >= C_CONNECTED)) {
				1268	tl_clear(mdev);
				1269	spin_lock_irq(&mdev->req_lock);
				1270	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1271	spin_unlock_irq(&mdev->req_lock);
				1272	}
				1273	}
				1274	/* Do not change the order of the if above and the two below... */
				1275	if (os.pdsk == D_DISKLESS && ns.pdsk > D_DISKLESS) { /* attach on the peer */
				1276	drbd_send_uuids(mdev);
				1277	drbd_send_state(mdev);
				1278	}
				1279	if (os.conn != C_WF_BITMAP_S && ns.conn == C_WF_BITMAP_S)
				1280	drbd_queue_bitmap_io(mdev, &drbd_send_bitmap, NULL, "send_bitmap (WFBitMapS)");
				1281
				1282	/* Lost contact to peer's copy of the data */
				1283	if ((os.pdsk >= D_INCONSISTENT &&
				1284	os.pdsk != D_UNKNOWN &&
				1285	os.pdsk != D_OUTDATED)
				1286	&& (ns.pdsk < D_INCONSISTENT \|\|
				1287	ns.pdsk == D_UNKNOWN \|\|
				1288	ns.pdsk == D_OUTDATED)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1289	if (get_ldev(mdev)) {
				1290	if ((ns.role == R_PRIMARY \|\| ns.peer == R_PRIMARY) &&
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1291	mdev->ldev->md.uuid[UI_BITMAP] == 0 && ns.disk >= D_UP_TO_DATE) {
				1292	drbd_uuid_new_current(mdev);
				1293	drbd_send_uuids(mdev);
				1294	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1295	put_ldev(mdev);
				1296	}
				1297	}
				1298
				1299	if (ns.pdsk < D_INCONSISTENT && get_ldev(mdev)) {
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame^]	1300	if (ns.peer == R_PRIMARY && mdev->ldev->md.uuid[UI_BITMAP] == 0) {
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1301	drbd_uuid_new_current(mdev);
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame^]	1302	drbd_send_uuids(mdev);
				1303	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1304
				1305	/* D_DISKLESS Peer becomes secondary */
				1306	if (os.peer == R_PRIMARY && ns.peer == R_SECONDARY)
				1307	drbd_al_to_on_disk_bm(mdev);
				1308	put_ldev(mdev);
				1309	}
				1310
				1311	/* Last part of the attaching process ... */
				1312	if (ns.conn >= C_CONNECTED &&
				1313	os.disk == D_ATTACHING && ns.disk == D_NEGOTIATING) {
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1314	drbd_send_sizes(mdev, 0, 0); /* to start sync... */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1315	drbd_send_uuids(mdev);
				1316	drbd_send_state(mdev);
				1317	}
				1318
				1319	/* We want to pause/continue resync, tell peer. */
				1320	if (ns.conn >= C_CONNECTED &&
				1321	((os.aftr_isp != ns.aftr_isp) \|\|
				1322	(os.user_isp != ns.user_isp)))
				1323	drbd_send_state(mdev);
				1324
				1325	/* In case one of the isp bits got set, suspend other devices. */
				1326	if ((!os.aftr_isp && !os.peer_isp && !os.user_isp) &&
				1327	(ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp))
				1328	suspend_other_sg(mdev);
				1329
				1330	/* Make sure the peer gets informed about eventual state
				1331	changes (ISP bits) while we were in WFReportParams. */
				1332	if (os.conn == C_WF_REPORT_PARAMS && ns.conn >= C_CONNECTED)
				1333	drbd_send_state(mdev);
				1334
				1335	/* We are in the progress to start a full sync... */
				1336	if ((os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				1337	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S))
				1338	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, &abw_start_sync, "set_n_write from StartingSync");
				1339
				1340	/* We are invalidating our self... */
				1341	if (os.conn < C_CONNECTED && ns.conn < C_CONNECTED &&
				1342	os.disk > D_INCONSISTENT && ns.disk == D_INCONSISTENT)
				1343	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, NULL, "set_n_write from invalidate");
				1344
				1345	if (os.disk > D_FAILED && ns.disk == D_FAILED) {
				1346	enum drbd_io_error_p eh;
				1347
				1348	eh = EP_PASS_ON;
				1349	if (get_ldev_if_state(mdev, D_FAILED)) {
				1350	eh = mdev->ldev->dc.on_io_error;
				1351	put_ldev(mdev);
				1352	}
				1353
				1354	drbd_rs_cancel_all(mdev);
				1355	/* since get_ldev() only works as long as disk>=D_INCONSISTENT,
				1356	and it is D_DISKLESS here, local_cnt can only go down, it can
				1357	not increase... It will reach zero */
				1358	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
				1359	mdev->rs_total = 0;
				1360	mdev->rs_failed = 0;
				1361	atomic_set(&mdev->rs_pending_cnt, 0);
				1362
				1363	spin_lock_irq(&mdev->req_lock);
				1364	_drbd_set_state(_NS(mdev, disk, D_DISKLESS), CS_HARD, NULL);
				1365	spin_unlock_irq(&mdev->req_lock);
				1366
				1367	if (eh == EP_CALL_HELPER)
				1368	drbd_khelper(mdev, "local-io-error");
				1369	}
				1370
				1371	if (os.disk > D_DISKLESS && ns.disk == D_DISKLESS) {
				1372
				1373	if (os.disk == D_FAILED) /* && ns.disk == D_DISKLESS*/ {
				1374	if (drbd_send_state(mdev))
				1375	dev_warn(DEV, "Notified peer that my disk is broken.\n");
				1376	else
				1377	dev_err(DEV, "Sending state in drbd_io_error() failed\n");
				1378	}
				1379
Philipp Reisner	0a6dbf2	2009-12-28 16:58:38 +0100	[diff] [blame]	1380	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1381	lc_destroy(mdev->resync);
				1382	mdev->resync = NULL;
				1383	lc_destroy(mdev->act_log);
				1384	mdev->act_log = NULL;
				1385	__no_warn(local,
				1386	drbd_free_bc(mdev->ldev);
				1387	mdev->ldev = NULL;);
				1388
				1389	if (mdev->md_io_tmpp)
				1390	__free_page(mdev->md_io_tmpp);
				1391	}
				1392
				1393	/* Disks got bigger while they were detached */
				1394	if (ns.disk > D_NEGOTIATING && ns.pdsk > D_NEGOTIATING &&
				1395	test_and_clear_bit(RESYNC_AFTER_NEG, &mdev->flags)) {
				1396	if (ns.conn == C_CONNECTED)
				1397	resync_after_online_grow(mdev);
				1398	}
				1399
				1400	/* A resync finished or aborted, wake paused devices... */
				1401	if ((os.conn > C_CONNECTED && ns.conn <= C_CONNECTED) \|\|
				1402	(os.peer_isp && !ns.peer_isp) \|\|
				1403	(os.user_isp && !ns.user_isp))
				1404	resume_next_sg(mdev);
				1405
				1406	/* Upon network connection, we need to start the receiver */
				1407	if (os.conn == C_STANDALONE && ns.conn == C_UNCONNECTED)
				1408	drbd_thread_start(&mdev->receiver);
				1409
				1410	/* Terminate worker thread if we are unconfigured - it will be
				1411	restarted as needed... */
				1412	if (ns.disk == D_DISKLESS &&
				1413	ns.conn == C_STANDALONE &&
				1414	ns.role == R_SECONDARY) {
				1415	if (os.aftr_isp != ns.aftr_isp)
				1416	resume_next_sg(mdev);
				1417	/* set in __drbd_set_state, unless CONFIG_PENDING was set */
				1418	if (test_bit(DEVICE_DYING, &mdev->flags))
				1419	drbd_thread_stop_nowait(&mdev->worker);
				1420	}
				1421
				1422	drbd_md_sync(mdev);
				1423	}
				1424
				1425
				1426	static int drbd_thread_setup(void *arg)
				1427	{
				1428	struct drbd_thread thi = (struct drbd_thread ) arg;
				1429	struct drbd_conf *mdev = thi->mdev;
				1430	unsigned long flags;
				1431	int retval;
				1432
				1433	restart:
				1434	retval = thi->function(thi);
				1435
				1436	spin_lock_irqsave(&thi->t_lock, flags);
				1437
				1438	/* if the receiver has been "Exiting", the last thing it did
				1439	* was set the conn state to "StandAlone",
				1440	* if now a re-connect request comes in, conn state goes C_UNCONNECTED,
				1441	* and receiver thread will be "started".
				1442	* drbd_thread_start needs to set "Restarting" in that case.
				1443	* t_state check and assignment needs to be within the same spinlock,
				1444	* so either thread_start sees Exiting, and can remap to Restarting,
				1445	* or thread_start see None, and can proceed as normal.
				1446	*/
				1447
				1448	if (thi->t_state == Restarting) {
				1449	dev_info(DEV, "Restarting %s\n", current->comm);
				1450	thi->t_state = Running;
				1451	spin_unlock_irqrestore(&thi->t_lock, flags);
				1452	goto restart;
				1453	}
				1454
				1455	thi->task = NULL;
				1456	thi->t_state = None;
				1457	smp_mb();
				1458	complete(&thi->stop);
				1459	spin_unlock_irqrestore(&thi->t_lock, flags);
				1460
				1461	dev_info(DEV, "Terminating %s\n", current->comm);
				1462
				1463	/* Release mod reference taken when thread was started */
				1464	module_put(THIS_MODULE);
				1465	return retval;
				1466	}
				1467
				1468	static void drbd_thread_init(struct drbd_conf mdev, struct drbd_thread thi,
				1469	int (func) (struct drbd_thread ))
				1470	{
				1471	spin_lock_init(&thi->t_lock);
				1472	thi->task = NULL;
				1473	thi->t_state = None;
				1474	thi->function = func;
				1475	thi->mdev = mdev;
				1476	}
				1477
				1478	int drbd_thread_start(struct drbd_thread *thi)
				1479	{
				1480	struct drbd_conf *mdev = thi->mdev;
				1481	struct task_struct *nt;
				1482	unsigned long flags;
				1483
				1484	const char *me =
				1485	thi == &mdev->receiver ? "receiver" :
				1486	thi == &mdev->asender ? "asender" :
				1487	thi == &mdev->worker ? "worker" : "NONSENSE";
				1488
				1489	/* is used from state engine doing drbd_thread_stop_nowait,
				1490	* while holding the req lock irqsave */
				1491	spin_lock_irqsave(&thi->t_lock, flags);
				1492
				1493	switch (thi->t_state) {
				1494	case None:
				1495	dev_info(DEV, "Starting %s thread (from %s [%d])\n",
				1496	me, current->comm, current->pid);
				1497
				1498	/* Get ref on module for thread - this is released when thread exits */
				1499	if (!try_module_get(THIS_MODULE)) {
				1500	dev_err(DEV, "Failed to get module reference in drbd_thread_start\n");
				1501	spin_unlock_irqrestore(&thi->t_lock, flags);
				1502	return FALSE;
				1503	}
				1504
				1505	init_completion(&thi->stop);
				1506	D_ASSERT(thi->task == NULL);
				1507	thi->reset_cpu_mask = 1;
				1508	thi->t_state = Running;
				1509	spin_unlock_irqrestore(&thi->t_lock, flags);
				1510	flush_signals(current); /* otherw. may get -ERESTARTNOINTR */
				1511
				1512	nt = kthread_create(drbd_thread_setup, (void *) thi,
				1513	"drbd%d_%s", mdev_to_minor(mdev), me);
				1514
				1515	if (IS_ERR(nt)) {
				1516	dev_err(DEV, "Couldn't start thread\n");
				1517
				1518	module_put(THIS_MODULE);
				1519	return FALSE;
				1520	}
				1521	spin_lock_irqsave(&thi->t_lock, flags);
				1522	thi->task = nt;
				1523	thi->t_state = Running;
				1524	spin_unlock_irqrestore(&thi->t_lock, flags);
				1525	wake_up_process(nt);
				1526	break;
				1527	case Exiting:
				1528	thi->t_state = Restarting;
				1529	dev_info(DEV, "Restarting %s thread (from %s [%d])\n",
				1530	me, current->comm, current->pid);
				1531	/* fall through */
				1532	case Running:
				1533	case Restarting:
				1534	default:
				1535	spin_unlock_irqrestore(&thi->t_lock, flags);
				1536	break;
				1537	}
				1538
				1539	return TRUE;
				1540	}
				1541
				1542
				1543	void _drbd_thread_stop(struct drbd_thread *thi, int restart, int wait)
				1544	{
				1545	unsigned long flags;
				1546
				1547	enum drbd_thread_state ns = restart ? Restarting : Exiting;
				1548
				1549	/* may be called from state engine, holding the req lock irqsave */
				1550	spin_lock_irqsave(&thi->t_lock, flags);
				1551
				1552	if (thi->t_state == None) {
				1553	spin_unlock_irqrestore(&thi->t_lock, flags);
				1554	if (restart)
				1555	drbd_thread_start(thi);
				1556	return;
				1557	}
				1558
				1559	if (thi->t_state != ns) {
				1560	if (thi->task == NULL) {
				1561	spin_unlock_irqrestore(&thi->t_lock, flags);
				1562	return;
				1563	}
				1564
				1565	thi->t_state = ns;
				1566	smp_mb();
				1567	init_completion(&thi->stop);
				1568	if (thi->task != current)
				1569	force_sig(DRBD_SIGKILL, thi->task);
				1570
				1571	}
				1572
				1573	spin_unlock_irqrestore(&thi->t_lock, flags);
				1574
				1575	if (wait)
				1576	wait_for_completion(&thi->stop);
				1577	}
				1578
				1579	#ifdef CONFIG_SMP
				1580	/**
				1581	* drbd_calc_cpu_mask() - Generate CPU masks, spread over all CPUs
				1582	* @mdev: DRBD device.
				1583	*
				1584	* Forces all threads of a device onto the same CPU. This is beneficial for
				1585	* DRBD's performance. May be overwritten by user's configuration.
				1586	*/
				1587	void drbd_calc_cpu_mask(struct drbd_conf *mdev)
				1588	{
				1589	int ord, cpu;
				1590
				1591	/* user override. */
				1592	if (cpumask_weight(mdev->cpu_mask))
				1593	return;
				1594
				1595	ord = mdev_to_minor(mdev) % cpumask_weight(cpu_online_mask);
				1596	for_each_online_cpu(cpu) {
				1597	if (ord-- == 0) {
				1598	cpumask_set_cpu(cpu, mdev->cpu_mask);
				1599	return;
				1600	}
				1601	}
				1602	/* should not be reached */
				1603	cpumask_setall(mdev->cpu_mask);
				1604	}
				1605
				1606	/**
				1607	* drbd_thread_current_set_cpu() - modifies the cpu mask of the _current_ thread
				1608	* @mdev: DRBD device.
				1609	*
				1610	* call in the "main loop" of _all_ threads, no need for any mutex, current won't die
				1611	* prematurely.
				1612	*/
				1613	void drbd_thread_current_set_cpu(struct drbd_conf *mdev)
				1614	{
				1615	struct task_struct *p = current;
				1616	struct drbd_thread *thi =
				1617	p == mdev->asender.task ? &mdev->asender :
				1618	p == mdev->receiver.task ? &mdev->receiver :
				1619	p == mdev->worker.task ? &mdev->worker :
				1620	NULL;
				1621	ERR_IF(thi == NULL)
				1622	return;
				1623	if (!thi->reset_cpu_mask)
				1624	return;
				1625	thi->reset_cpu_mask = 0;
				1626	set_cpus_allowed_ptr(p, mdev->cpu_mask);
				1627	}
				1628	#endif
				1629
				1630	/* the appropriate socket mutex must be held already */
				1631	int _drbd_send_cmd(struct drbd_conf mdev, struct socket sock,
				1632	enum drbd_packets cmd, struct p_header *h,
				1633	size_t size, unsigned msg_flags)
				1634	{
				1635	int sent, ok;
				1636
				1637	ERR_IF(!h) return FALSE;
				1638	ERR_IF(!size) return FALSE;
				1639
				1640	h->magic = BE_DRBD_MAGIC;
				1641	h->command = cpu_to_be16(cmd);
				1642	h->length = cpu_to_be16(size-sizeof(struct p_header));
				1643
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1644	sent = drbd_send(mdev, sock, h, size, msg_flags);
				1645
				1646	ok = (sent == size);
				1647	if (!ok)
				1648	dev_err(DEV, "short sent %s size=%d sent=%d\n",
				1649	cmdname(cmd), (int)size, sent);
				1650	return ok;
				1651	}
				1652
				1653	/* don't pass the socket. we may only look at it
				1654	* when we hold the appropriate socket mutex.
				1655	*/
				1656	int drbd_send_cmd(struct drbd_conf *mdev, int use_data_socket,
				1657	enum drbd_packets cmd, struct p_header *h, size_t size)
				1658	{
				1659	int ok = 0;
				1660	struct socket *sock;
				1661
				1662	if (use_data_socket) {
				1663	mutex_lock(&mdev->data.mutex);
				1664	sock = mdev->data.socket;
				1665	} else {
				1666	mutex_lock(&mdev->meta.mutex);
				1667	sock = mdev->meta.socket;
				1668	}
				1669
				1670	/* drbd_disconnect() could have called drbd_free_sock()
				1671	* while we were waiting in down()... */
				1672	if (likely(sock != NULL))
				1673	ok = _drbd_send_cmd(mdev, sock, cmd, h, size, 0);
				1674
				1675	if (use_data_socket)
				1676	mutex_unlock(&mdev->data.mutex);
				1677	else
				1678	mutex_unlock(&mdev->meta.mutex);
				1679	return ok;
				1680	}
				1681
				1682	int drbd_send_cmd2(struct drbd_conf mdev, enum drbd_packets cmd, char data,
				1683	size_t size)
				1684	{
				1685	struct p_header h;
				1686	int ok;
				1687
				1688	h.magic = BE_DRBD_MAGIC;
				1689	h.command = cpu_to_be16(cmd);
				1690	h.length = cpu_to_be16(size);
				1691
				1692	if (!drbd_get_data_sock(mdev))
				1693	return 0;
				1694
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1695	ok = (sizeof(h) ==
				1696	drbd_send(mdev, mdev->data.socket, &h, sizeof(h), 0));
				1697	ok = ok && (size ==
				1698	drbd_send(mdev, mdev->data.socket, data, size, 0));
				1699
				1700	drbd_put_data_sock(mdev);
				1701
				1702	return ok;
				1703	}
				1704
				1705	int drbd_send_sync_param(struct drbd_conf mdev, struct syncer_conf sc)
				1706	{
				1707	struct p_rs_param_89 *p;
				1708	struct socket *sock;
				1709	int size, rv;
				1710	const int apv = mdev->agreed_pro_version;
				1711
				1712	size = apv <= 87 ? sizeof(struct p_rs_param)
				1713	: apv == 88 ? sizeof(struct p_rs_param)
				1714	+ strlen(mdev->sync_conf.verify_alg) + 1
				1715	: /* 89 */ sizeof(struct p_rs_param_89);
				1716
				1717	/* used from admin command context and receiver/worker context.
				1718	* to avoid kmalloc, grab the socket right here,
				1719	* then use the pre-allocated sbuf there */
				1720	mutex_lock(&mdev->data.mutex);
				1721	sock = mdev->data.socket;
				1722
				1723	if (likely(sock != NULL)) {
				1724	enum drbd_packets cmd = apv >= 89 ? P_SYNC_PARAM89 : P_SYNC_PARAM;
				1725
				1726	p = &mdev->data.sbuf.rs_param_89;
				1727
				1728	/* initialize verify_alg and csums_alg */
				1729	memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
				1730
				1731	p->rate = cpu_to_be32(sc->rate);
				1732
				1733	if (apv >= 88)
				1734	strcpy(p->verify_alg, mdev->sync_conf.verify_alg);
				1735	if (apv >= 89)
				1736	strcpy(p->csums_alg, mdev->sync_conf.csums_alg);
				1737
				1738	rv = _drbd_send_cmd(mdev, sock, cmd, &p->head, size, 0);
				1739	} else
				1740	rv = 0; /* not ok */
				1741
				1742	mutex_unlock(&mdev->data.mutex);
				1743
				1744	return rv;
				1745	}
				1746
				1747	int drbd_send_protocol(struct drbd_conf *mdev)
				1748	{
				1749	struct p_protocol *p;
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1750	int size, cf, rv;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1751
				1752	size = sizeof(struct p_protocol);
				1753
				1754	if (mdev->agreed_pro_version >= 87)
				1755	size += strlen(mdev->net_conf->integrity_alg) + 1;
				1756
				1757	/* we must not recurse into our own queue,
				1758	* as that is blocked during handshake */
				1759	p = kmalloc(size, GFP_NOIO);
				1760	if (p == NULL)
				1761	return 0;
				1762
				1763	p->protocol = cpu_to_be32(mdev->net_conf->wire_protocol);
				1764	p->after_sb_0p = cpu_to_be32(mdev->net_conf->after_sb_0p);
				1765	p->after_sb_1p = cpu_to_be32(mdev->net_conf->after_sb_1p);
				1766	p->after_sb_2p = cpu_to_be32(mdev->net_conf->after_sb_2p);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1767	p->two_primaries = cpu_to_be32(mdev->net_conf->two_primaries);
				1768
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1769	cf = 0;
				1770	if (mdev->net_conf->want_lose)
				1771	cf \|= CF_WANT_LOSE;
				1772	if (mdev->net_conf->dry_run) {
				1773	if (mdev->agreed_pro_version >= 92)
				1774	cf \|= CF_DRY_RUN;
				1775	else {
				1776	dev_err(DEV, "--dry-run is not supported by peer");
Dan Carpenter	7ac314c	2010-04-22 14:27:23 +0200	[diff] [blame]	1777	kfree(p);
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1778	return 0;
				1779	}
				1780	}
				1781	p->conn_flags = cpu_to_be32(cf);
				1782
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1783	if (mdev->agreed_pro_version >= 87)
				1784	strcpy(p->integrity_alg, mdev->net_conf->integrity_alg);
				1785
				1786	rv = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_PROTOCOL,
				1787	(struct p_header *)p, size);
				1788	kfree(p);
				1789	return rv;
				1790	}
				1791
				1792	int _drbd_send_uuids(struct drbd_conf *mdev, u64 uuid_flags)
				1793	{
				1794	struct p_uuids p;
				1795	int i;
				1796
				1797	if (!get_ldev_if_state(mdev, D_NEGOTIATING))
				1798	return 1;
				1799
				1800	for (i = UI_CURRENT; i < UI_SIZE; i++)
				1801	p.uuid[i] = mdev->ldev ? cpu_to_be64(mdev->ldev->md.uuid[i]) : 0;
				1802
				1803	mdev->comm_bm_set = drbd_bm_total_weight(mdev);
				1804	p.uuid[UI_SIZE] = cpu_to_be64(mdev->comm_bm_set);
				1805	uuid_flags \|= mdev->net_conf->want_lose ? 1 : 0;
				1806	uuid_flags \|= test_bit(CRASHED_PRIMARY, &mdev->flags) ? 2 : 0;
				1807	uuid_flags \|= mdev->new_state_tmp.disk == D_INCONSISTENT ? 4 : 0;
				1808	p.uuid[UI_FLAGS] = cpu_to_be64(uuid_flags);
				1809
				1810	put_ldev(mdev);
				1811
				1812	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_UUIDS,
				1813	(struct p_header *)&p, sizeof(p));
				1814	}
				1815
				1816	int drbd_send_uuids(struct drbd_conf *mdev)
				1817	{
				1818	return _drbd_send_uuids(mdev, 0);
				1819	}
				1820
				1821	int drbd_send_uuids_skip_initial_sync(struct drbd_conf *mdev)
				1822	{
				1823	return _drbd_send_uuids(mdev, 8);
				1824	}
				1825
				1826
				1827	int drbd_send_sync_uuid(struct drbd_conf *mdev, u64 val)
				1828	{
				1829	struct p_rs_uuid p;
				1830
				1831	p.uuid = cpu_to_be64(val);
				1832
				1833	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SYNC_UUID,
				1834	(struct p_header *)&p, sizeof(p));
				1835	}
				1836
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1837	int drbd_send_sizes(struct drbd_conf *mdev, int trigger_reply, enum dds_flags flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1838	{
				1839	struct p_sizes p;
				1840	sector_t d_size, u_size;
				1841	int q_order_type;
				1842	int ok;
				1843
				1844	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1845	D_ASSERT(mdev->ldev->backing_bdev);
				1846	d_size = drbd_get_max_capacity(mdev->ldev);
				1847	u_size = mdev->ldev->dc.disk_size;
				1848	q_order_type = drbd_queue_order_type(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1849	put_ldev(mdev);
				1850	} else {
				1851	d_size = 0;
				1852	u_size = 0;
				1853	q_order_type = QUEUE_ORDERED_NONE;
				1854	}
				1855
				1856	p.d_size = cpu_to_be64(d_size);
				1857	p.u_size = cpu_to_be64(u_size);
				1858	p.c_size = cpu_to_be64(trigger_reply ? 0 : drbd_get_capacity(mdev->this_bdev));
				1859	p.max_segment_size = cpu_to_be32(queue_max_segment_size(mdev->rq_queue));
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1860	p.queue_order_type = cpu_to_be16(q_order_type);
				1861	p.dds_flags = cpu_to_be16(flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1862
				1863	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SIZES,
				1864	(struct p_header *)&p, sizeof(p));
				1865	return ok;
				1866	}
				1867
				1868	/**
				1869	* drbd_send_state() - Sends the drbd state to the peer
				1870	* @mdev: DRBD device.
				1871	*/
				1872	int drbd_send_state(struct drbd_conf *mdev)
				1873	{
				1874	struct socket *sock;
				1875	struct p_state p;
				1876	int ok = 0;
				1877
				1878	/* Grab state lock so we wont send state if we're in the middle
				1879	* of a cluster wide state change on another thread */
				1880	drbd_state_lock(mdev);
				1881
				1882	mutex_lock(&mdev->data.mutex);
				1883
				1884	p.state = cpu_to_be32(mdev->state.i); /* Within the send mutex */
				1885	sock = mdev->data.socket;
				1886
				1887	if (likely(sock != NULL)) {
				1888	ok = _drbd_send_cmd(mdev, sock, P_STATE,
				1889	(struct p_header *)&p, sizeof(p), 0);
				1890	}
				1891
				1892	mutex_unlock(&mdev->data.mutex);
				1893
				1894	drbd_state_unlock(mdev);
				1895	return ok;
				1896	}
				1897
				1898	int drbd_send_state_req(struct drbd_conf *mdev,
				1899	union drbd_state mask, union drbd_state val)
				1900	{
				1901	struct p_req_state p;
				1902
				1903	p.mask = cpu_to_be32(mask.i);
				1904	p.val = cpu_to_be32(val.i);
				1905
				1906	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_STATE_CHG_REQ,
				1907	(struct p_header *)&p, sizeof(p));
				1908	}
				1909
				1910	int drbd_send_sr_reply(struct drbd_conf *mdev, int retcode)
				1911	{
				1912	struct p_req_state_reply p;
				1913
				1914	p.retcode = cpu_to_be32(retcode);
				1915
				1916	return drbd_send_cmd(mdev, USE_META_SOCKET, P_STATE_CHG_REPLY,
				1917	(struct p_header *)&p, sizeof(p));
				1918	}
				1919
				1920	int fill_bitmap_rle_bits(struct drbd_conf *mdev,
				1921	struct p_compressed_bm *p,
				1922	struct bm_xfer_ctx *c)
				1923	{
				1924	struct bitstream bs;
				1925	unsigned long plain_bits;
				1926	unsigned long tmp;
				1927	unsigned long rl;
				1928	unsigned len;
				1929	unsigned toggle;
				1930	int bits;
				1931
				1932	/* may we use this feature? */
				1933	if ((mdev->sync_conf.use_rle == 0) \|\|
				1934	(mdev->agreed_pro_version < 90))
				1935	return 0;
				1936
				1937	if (c->bit_offset >= c->bm_bits)
				1938	return 0; /* nothing to do. */
				1939
				1940	/* use at most thus many bytes */
				1941	bitstream_init(&bs, p->code, BM_PACKET_VLI_BYTES_MAX, 0);
				1942	memset(p->code, 0, BM_PACKET_VLI_BYTES_MAX);
				1943	/* plain bits covered in this code string */
				1944	plain_bits = 0;
				1945
				1946	/* p->encoding & 0x80 stores whether the first run length is set.
				1947	* bit offset is implicit.
				1948	* start with toggle == 2 to be able to tell the first iteration */
				1949	toggle = 2;
				1950
				1951	/* see how much plain bits we can stuff into one packet
				1952	* using RLE and VLI. */
				1953	do {
				1954	tmp = (toggle == 0) ? _drbd_bm_find_next_zero(mdev, c->bit_offset)
				1955	: _drbd_bm_find_next(mdev, c->bit_offset);
				1956	if (tmp == -1UL)
				1957	tmp = c->bm_bits;
				1958	rl = tmp - c->bit_offset;
				1959
				1960	if (toggle == 2) { /* first iteration */
				1961	if (rl == 0) {
				1962	/* the first checked bit was set,
				1963	* store start value, */
				1964	DCBP_set_start(p, 1);
				1965	/* but skip encoding of zero run length */
				1966	toggle = !toggle;
				1967	continue;
				1968	}
				1969	DCBP_set_start(p, 0);
				1970	}
				1971
				1972	/* paranoia: catch zero runlength.
				1973	* can only happen if bitmap is modified while we scan it. */
				1974	if (rl == 0) {
				1975	dev_err(DEV, "unexpected zero runlength while encoding bitmap "
				1976	"t:%u bo:%lu\n", toggle, c->bit_offset);
				1977	return -1;
				1978	}
				1979
				1980	bits = vli_encode_bits(&bs, rl);
				1981	if (bits == -ENOBUFS) /* buffer full */
				1982	break;
				1983	if (bits <= 0) {
				1984	dev_err(DEV, "error while encoding bitmap: %d\n", bits);
				1985	return 0;
				1986	}
				1987
				1988	toggle = !toggle;
				1989	plain_bits += rl;
				1990	c->bit_offset = tmp;
				1991	} while (c->bit_offset < c->bm_bits);
				1992
				1993	len = bs.cur.b - p->code + !!bs.cur.bit;
				1994
				1995	if (plain_bits < (len << 3)) {
				1996	/* incompressible with this method.
				1997	* we need to rewind both word and bit position. */
				1998	c->bit_offset -= plain_bits;
				1999	bm_xfer_ctx_bit_to_word_offset(c);
				2000	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2001	return 0;
				2002	}
				2003
				2004	/* RLE + VLI was able to compress it just fine.
				2005	* update c->word_offset. */
				2006	bm_xfer_ctx_bit_to_word_offset(c);
				2007
				2008	/* store pad_bits */
				2009	DCBP_set_pad_bits(p, (8 - bs.cur.bit) & 0x7);
				2010
				2011	return len;
				2012	}
				2013
				2014	enum { OK, FAILED, DONE }
				2015	send_bitmap_rle_or_plain(struct drbd_conf *mdev,
				2016	struct p_header h, struct bm_xfer_ctx c)
				2017	{
				2018	struct p_compressed_bm p = (void)h;
				2019	unsigned long num_words;
				2020	int len;
				2021	int ok;
				2022
				2023	len = fill_bitmap_rle_bits(mdev, p, c);
				2024
				2025	if (len < 0)
				2026	return FAILED;
				2027
				2028	if (len) {
				2029	DCBP_set_code(p, RLE_VLI_Bits);
				2030	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_COMPRESSED_BITMAP, h,
				2031	sizeof(*p) + len, 0);
				2032
				2033	c->packets[0]++;
				2034	c->bytes[0] += sizeof(*p) + len;
				2035
				2036	if (c->bit_offset >= c->bm_bits)
				2037	len = 0; /* DONE */
				2038	} else {
				2039	/* was not compressible.
				2040	* send a buffer full of plain text bits instead. */
				2041	num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
				2042	len = num_words * sizeof(long);
				2043	if (len)
				2044	drbd_bm_get_lel(mdev, c->word_offset, num_words, (unsigned long*)h->payload);
				2045	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BITMAP,
				2046	h, sizeof(struct p_header) + len, 0);
				2047	c->word_offset += num_words;
				2048	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2049
				2050	c->packets[1]++;
				2051	c->bytes[1] += sizeof(struct p_header) + len;
				2052
				2053	if (c->bit_offset > c->bm_bits)
				2054	c->bit_offset = c->bm_bits;
				2055	}
				2056	ok = ok ? ((len == 0) ? DONE : OK) : FAILED;
				2057
				2058	if (ok == DONE)
				2059	INFO_bm_xfer_stats(mdev, "send", c);
				2060	return ok;
				2061	}
				2062
				2063	/* See the comment at receive_bitmap() */
				2064	int _drbd_send_bitmap(struct drbd_conf *mdev)
				2065	{
				2066	struct bm_xfer_ctx c;
				2067	struct p_header *p;
				2068	int ret;
				2069
				2070	ERR_IF(!mdev->bitmap) return FALSE;
				2071
				2072	/* maybe we should use some per thread scratch page,
				2073	* and allocate that during initial device creation? */
				2074	p = (struct p_header *) __get_free_page(GFP_NOIO);
				2075	if (!p) {
				2076	dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
				2077	return FALSE;
				2078	}
				2079
				2080	if (get_ldev(mdev)) {
				2081	if (drbd_md_test_flag(mdev->ldev, MDF_FULL_SYNC)) {
				2082	dev_info(DEV, "Writing the whole bitmap, MDF_FullSync was set.\n");
				2083	drbd_bm_set_all(mdev);
				2084	if (drbd_bm_write(mdev)) {
				2085	/* write_bm did fail! Leave full sync flag set in Meta P_DATA
				2086	* but otherwise process as per normal - need to tell other
				2087	* side that a full resync is required! */
				2088	dev_err(DEV, "Failed to write bitmap to disk!\n");
				2089	} else {
				2090	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				2091	drbd_md_sync(mdev);
				2092	}
				2093	}
				2094	put_ldev(mdev);
				2095	}
				2096
				2097	c = (struct bm_xfer_ctx) {
				2098	.bm_bits = drbd_bm_bits(mdev),
				2099	.bm_words = drbd_bm_words(mdev),
				2100	};
				2101
				2102	do {
				2103	ret = send_bitmap_rle_or_plain(mdev, p, &c);
				2104	} while (ret == OK);
				2105
				2106	free_page((unsigned long) p);
				2107	return (ret == DONE);
				2108	}
				2109
				2110	int drbd_send_bitmap(struct drbd_conf *mdev)
				2111	{
				2112	int err;
				2113
				2114	if (!drbd_get_data_sock(mdev))
				2115	return -1;
				2116	err = !_drbd_send_bitmap(mdev);
				2117	drbd_put_data_sock(mdev);
				2118	return err;
				2119	}
				2120
				2121	int drbd_send_b_ack(struct drbd_conf *mdev, u32 barrier_nr, u32 set_size)
				2122	{
				2123	int ok;
				2124	struct p_barrier_ack p;
				2125
				2126	p.barrier = barrier_nr;
				2127	p.set_size = cpu_to_be32(set_size);
				2128
				2129	if (mdev->state.conn < C_CONNECTED)
				2130	return FALSE;
				2131	ok = drbd_send_cmd(mdev, USE_META_SOCKET, P_BARRIER_ACK,
				2132	(struct p_header *)&p, sizeof(p));
				2133	return ok;
				2134	}
				2135
				2136	/**
				2137	* _drbd_send_ack() - Sends an ack packet
				2138	* @mdev: DRBD device.
				2139	* @cmd: Packet command code.
				2140	* @sector: sector, needs to be in big endian byte order
				2141	* @blksize: size in byte, needs to be in big endian byte order
				2142	* @block_id: Id, big endian byte order
				2143	*/
				2144	static int _drbd_send_ack(struct drbd_conf *mdev, enum drbd_packets cmd,
				2145	u64 sector,
				2146	u32 blksize,
				2147	u64 block_id)
				2148	{
				2149	int ok;
				2150	struct p_block_ack p;
				2151
				2152	p.sector = sector;
				2153	p.block_id = block_id;
				2154	p.blksize = blksize;
				2155	p.seq_num = cpu_to_be32(atomic_add_return(1, &mdev->packet_seq));
				2156
				2157	if (!mdev->meta.socket \|\| mdev->state.conn < C_CONNECTED)
				2158	return FALSE;
				2159	ok = drbd_send_cmd(mdev, USE_META_SOCKET, cmd,
				2160	(struct p_header *)&p, sizeof(p));
				2161	return ok;
				2162	}
				2163
				2164	int drbd_send_ack_dp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2165	struct p_data *dp)
				2166	{
				2167	const int header_size = sizeof(struct p_data)
				2168	- sizeof(struct p_header);
				2169	int data_size = ((struct p_header *)dp)->length - header_size;
				2170
				2171	return _drbd_send_ack(mdev, cmd, dp->sector, cpu_to_be32(data_size),
				2172	dp->block_id);
				2173	}
				2174
				2175	int drbd_send_ack_rp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2176	struct p_block_req *rp)
				2177	{
				2178	return _drbd_send_ack(mdev, cmd, rp->sector, rp->blksize, rp->block_id);
				2179	}
				2180
				2181	/**
				2182	* drbd_send_ack() - Sends an ack packet
				2183	* @mdev: DRBD device.
				2184	* @cmd: Packet command code.
				2185	* @e: Epoch entry.
				2186	*/
				2187	int drbd_send_ack(struct drbd_conf *mdev,
				2188	enum drbd_packets cmd, struct drbd_epoch_entry *e)
				2189	{
				2190	return _drbd_send_ack(mdev, cmd,
				2191	cpu_to_be64(e->sector),
				2192	cpu_to_be32(e->size),
				2193	e->block_id);
				2194	}
				2195
				2196	/* This function misuses the block_id field to signal if the blocks
				2197	* are is sync or not. */
				2198	int drbd_send_ack_ex(struct drbd_conf *mdev, enum drbd_packets cmd,
				2199	sector_t sector, int blksize, u64 block_id)
				2200	{
				2201	return _drbd_send_ack(mdev, cmd,
				2202	cpu_to_be64(sector),
				2203	cpu_to_be32(blksize),
				2204	cpu_to_be64(block_id));
				2205	}
				2206
				2207	int drbd_send_drequest(struct drbd_conf *mdev, int cmd,
				2208	sector_t sector, int size, u64 block_id)
				2209	{
				2210	int ok;
				2211	struct p_block_req p;
				2212
				2213	p.sector = cpu_to_be64(sector);
				2214	p.block_id = block_id;
				2215	p.blksize = cpu_to_be32(size);
				2216
				2217	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, cmd,
				2218	(struct p_header *)&p, sizeof(p));
				2219	return ok;
				2220	}
				2221
				2222	int drbd_send_drequest_csum(struct drbd_conf *mdev,
				2223	sector_t sector, int size,
				2224	void *digest, int digest_size,
				2225	enum drbd_packets cmd)
				2226	{
				2227	int ok;
				2228	struct p_block_req p;
				2229
				2230	p.sector = cpu_to_be64(sector);
				2231	p.block_id = BE_DRBD_MAGIC + 0xbeef;
				2232	p.blksize = cpu_to_be32(size);
				2233
				2234	p.head.magic = BE_DRBD_MAGIC;
				2235	p.head.command = cpu_to_be16(cmd);
				2236	p.head.length = cpu_to_be16(sizeof(p) - sizeof(struct p_header) + digest_size);
				2237
				2238	mutex_lock(&mdev->data.mutex);
				2239
				2240	ok = (sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), 0));
				2241	ok = ok && (digest_size == drbd_send(mdev, mdev->data.socket, digest, digest_size, 0));
				2242
				2243	mutex_unlock(&mdev->data.mutex);
				2244
				2245	return ok;
				2246	}
				2247
				2248	int drbd_send_ov_request(struct drbd_conf *mdev, sector_t sector, int size)
				2249	{
				2250	int ok;
				2251	struct p_block_req p;
				2252
				2253	p.sector = cpu_to_be64(sector);
				2254	p.block_id = BE_DRBD_MAGIC + 0xbabe;
				2255	p.blksize = cpu_to_be32(size);
				2256
				2257	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_OV_REQUEST,
				2258	(struct p_header *)&p, sizeof(p));
				2259	return ok;
				2260	}
				2261
				2262	/* called on sndtimeo
				2263	* returns FALSE if we should retry,
				2264	* TRUE if we think connection is dead
				2265	*/
				2266	static int we_should_drop_the_connection(struct drbd_conf mdev, struct socket sock)
				2267	{
				2268	int drop_it;
				2269	/* long elapsed = (long)(jiffies - mdev->last_received); */
				2270
				2271	drop_it = mdev->meta.socket == sock
				2272	\|\| !mdev->asender.task
				2273	\|\| get_t_state(&mdev->asender) != Running
				2274	\|\| mdev->state.conn < C_CONNECTED;
				2275
				2276	if (drop_it)
				2277	return TRUE;
				2278
				2279	drop_it = !--mdev->ko_count;
				2280	if (!drop_it) {
				2281	dev_err(DEV, "[%s/%d] sock_sendmsg time expired, ko = %u\n",
				2282	current->comm, current->pid, mdev->ko_count);
				2283	request_ping(mdev);
				2284	}
				2285
				2286	return drop_it; /* && (mdev->state == R_PRIMARY) */;
				2287	}
				2288
				2289	/* The idea of sendpage seems to be to put some kind of reference
				2290	* to the page into the skb, and to hand it over to the NIC. In
				2291	* this process get_page() gets called.
				2292	*
				2293	* As soon as the page was really sent over the network put_page()
				2294	* gets called by some part of the network layer. [ NIC driver? ]
				2295	*
				2296	* [ get_page() / put_page() increment/decrement the count. If count
				2297	* reaches 0 the page will be freed. ]
				2298	*
				2299	* This works nicely with pages from FSs.
				2300	* But this means that in protocol A we might signal IO completion too early!
				2301	*
				2302	* In order not to corrupt data during a resync we must make sure
				2303	* that we do not reuse our own buffer pages (EEs) to early, therefore
				2304	* we have the net_ee list.
				2305	*
				2306	* XFS seems to have problems, still, it submits pages with page_count == 0!
				2307	* As a workaround, we disable sendpage on pages
				2308	* with page_count == 0 or PageSlab.
				2309	*/
				2310	static int _drbd_no_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2311	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2312	{
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2313	int sent = drbd_send(mdev, mdev->data.socket, kmap(page) + offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2314	kunmap(page);
				2315	if (sent == size)
				2316	mdev->send_cnt += size>>9;
				2317	return sent == size;
				2318	}
				2319
				2320	static int _drbd_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2321	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2322	{
				2323	mm_segment_t oldfs = get_fs();
				2324	int sent, ok;
				2325	int len = size;
				2326
				2327	/* e.g. XFS meta- & log-data is in slab pages, which have a
				2328	* page_count of 0 and/or have PageSlab() set.
				2329	* we cannot use send_page for those, as that does get_page();
				2330	* put_page(); and would cause either a VM_BUG directly, or
				2331	* __page_cache_release a page that would actually still be referenced
				2332	* by someone, leading to some obscure delayed Oops somewhere else. */
				2333	if (disable_sendpage \|\| (page_count(page) < 1) \|\| PageSlab(page))
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2334	return _drbd_no_send_page(mdev, page, offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2335
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2336	msg_flags \|= MSG_NOSIGNAL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2337	drbd_update_congested(mdev);
				2338	set_fs(KERNEL_DS);
				2339	do {
				2340	sent = mdev->data.socket->ops->sendpage(mdev->data.socket, page,
				2341	offset, len,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2342	msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2343	if (sent == -EAGAIN) {
				2344	if (we_should_drop_the_connection(mdev,
				2345	mdev->data.socket))
				2346	break;
				2347	else
				2348	continue;
				2349	}
				2350	if (sent <= 0) {
				2351	dev_warn(DEV, "%s: size=%d len=%d sent=%d\n",
				2352	__func__, (int)size, len, sent);
				2353	break;
				2354	}
				2355	len -= sent;
				2356	offset += sent;
				2357	} while (len > 0 /* THINK && mdev->cstate >= C_CONNECTED*/);
				2358	set_fs(oldfs);
				2359	clear_bit(NET_CONGESTED, &mdev->flags);
				2360
				2361	ok = (len == 0);
				2362	if (likely(ok))
				2363	mdev->send_cnt += size>>9;
				2364	return ok;
				2365	}
				2366
				2367	static int _drbd_send_bio(struct drbd_conf mdev, struct bio bio)
				2368	{
				2369	struct bio_vec *bvec;
				2370	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2371	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2372	__bio_for_each_segment(bvec, bio, i, 0) {
				2373	if (!_drbd_no_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2374	bvec->bv_offset, bvec->bv_len,
				2375	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2376	return 0;
				2377	}
				2378	return 1;
				2379	}
				2380
				2381	static int _drbd_send_zc_bio(struct drbd_conf mdev, struct bio bio)
				2382	{
				2383	struct bio_vec *bvec;
				2384	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2385	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2386	__bio_for_each_segment(bvec, bio, i, 0) {
				2387	if (!_drbd_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2388	bvec->bv_offset, bvec->bv_len,
				2389	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2390	return 0;
				2391	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2392	return 1;
				2393	}
				2394
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2395	static int _drbd_send_zc_ee(struct drbd_conf mdev, struct drbd_epoch_entry e)
				2396	{
				2397	struct page *page = e->pages;
				2398	unsigned len = e->size;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2399	/* hint all but last page with MSG_MORE */
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2400	page_chain_for_each(page) {
				2401	unsigned l = min_t(unsigned, len, PAGE_SIZE);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2402	if (!_drbd_send_page(mdev, page, 0, l,
				2403	page_chain_next(page) ? MSG_MORE : 0))
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2404	return 0;
				2405	len -= l;
				2406	}
				2407	return 1;
				2408	}
				2409
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2410	/* Used to send write requests
				2411	* R_PRIMARY -> Peer (P_DATA)
				2412	*/
				2413	int drbd_send_dblock(struct drbd_conf mdev, struct drbd_request req)
				2414	{
				2415	int ok = 1;
				2416	struct p_data p;
				2417	unsigned int dp_flags = 0;
				2418	void *dgb;
				2419	int dgs;
				2420
				2421	if (!drbd_get_data_sock(mdev))
				2422	return 0;
				2423
				2424	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2425	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2426
				2427	p.head.magic = BE_DRBD_MAGIC;
				2428	p.head.command = cpu_to_be16(P_DATA);
				2429	p.head.length =
				2430	cpu_to_be16(sizeof(p) - sizeof(struct p_header) + dgs + req->size);
				2431
				2432	p.sector = cpu_to_be64(req->sector);
				2433	p.block_id = (unsigned long)req;
				2434	p.seq_num = cpu_to_be32(req->seq_num =
				2435	atomic_add_return(1, &mdev->packet_seq));
				2436	dp_flags = 0;
				2437
				2438	/* NOTE: no need to check if barriers supported here as we would
				2439	* not pass the test in make_request_common in that case
				2440	*/
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2441	if (req->master_bio->bi_rw & REQ_HARDBARRIER) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2442	dev_err(DEV, "ASSERT FAILED would have set DP_HARDBARRIER\n");
				2443	/* dp_flags \|= DP_HARDBARRIER; */
				2444	}
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2445	if (req->master_bio->bi_rw & REQ_SYNC)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2446	dp_flags \|= DP_RW_SYNC;
				2447	/* for now handle SYNCIO and UNPLUG
				2448	* as if they still were one and the same flag */
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2449	if (req->master_bio->bi_rw & REQ_UNPLUG)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2450	dp_flags \|= DP_RW_SYNC;
				2451	if (mdev->state.conn >= C_SYNC_SOURCE &&
				2452	mdev->state.conn <= C_PAUSED_SYNC_T)
				2453	dp_flags \|= DP_MAY_SET_IN_SYNC;
				2454
				2455	p.dp_flags = cpu_to_be32(dp_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2456	set_bit(UNPLUG_REMOTE, &mdev->flags);
				2457	ok = (sizeof(p) ==
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2458	drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2459	if (ok && dgs) {
				2460	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2461	drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2462	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2463	}
				2464	if (ok) {
				2465	if (mdev->net_conf->wire_protocol == DRBD_PROT_A)
				2466	ok = _drbd_send_bio(mdev, req->master_bio);
				2467	else
				2468	ok = _drbd_send_zc_bio(mdev, req->master_bio);
				2469	}
				2470
				2471	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2472
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2473	return ok;
				2474	}
				2475
				2476	/* answer packet, used to send data back for read requests:
				2477	* Peer -> (diskless) R_PRIMARY (P_DATA_REPLY)
				2478	* C_SYNC_SOURCE -> C_SYNC_TARGET (P_RS_DATA_REPLY)
				2479	*/
				2480	int drbd_send_block(struct drbd_conf *mdev, enum drbd_packets cmd,
				2481	struct drbd_epoch_entry *e)
				2482	{
				2483	int ok;
				2484	struct p_data p;
				2485	void *dgb;
				2486	int dgs;
				2487
				2488	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2489	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2490
				2491	p.head.magic = BE_DRBD_MAGIC;
				2492	p.head.command = cpu_to_be16(cmd);
				2493	p.head.length =
				2494	cpu_to_be16(sizeof(p) - sizeof(struct p_header) + dgs + e->size);
				2495
				2496	p.sector = cpu_to_be64(e->sector);
				2497	p.block_id = e->block_id;
				2498	/* p.seq_num = 0; No sequence numbers here.. */
				2499
				2500	/* Only called by our kernel thread.
				2501	* This one may be interrupted by DRBD_SIG and/or DRBD_SIGKILL
				2502	* in response to admin command or module unload.
				2503	*/
				2504	if (!drbd_get_data_sock(mdev))
				2505	return 0;
				2506
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2507	ok = sizeof(p) == drbd_send(mdev, mdev->data.socket, &p,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2508	sizeof(p), dgs ? MSG_MORE : 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2509	if (ok && dgs) {
				2510	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2511	drbd_csum_ee(mdev, mdev->integrity_w_tfm, e, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2512	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2513	}
				2514	if (ok)
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2515	ok = _drbd_send_zc_ee(mdev, e);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2516
				2517	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2518
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2519	return ok;
				2520	}
				2521
				2522	/*
				2523	drbd_send distinguishes two cases:
				2524
				2525	Packets sent via the data socket "sock"
				2526	and packets sent via the meta data socket "msock"
				2527
				2528	sock msock
				2529	-----------------+-------------------------+------------------------------
				2530	timeout conf.timeout / 2 conf.timeout / 2
				2531	timeout action send a ping via msock Abort communication
				2532	and close all sockets
				2533	*/
				2534
				2535	/*
				2536	* you must have down()ed the appropriate [m]sock_mutex elsewhere!
				2537	*/
				2538	int drbd_send(struct drbd_conf mdev, struct socket sock,
				2539	void *buf, size_t size, unsigned msg_flags)
				2540	{
				2541	struct kvec iov;
				2542	struct msghdr msg;
				2543	int rv, sent = 0;
				2544
				2545	if (!sock)
				2546	return -1000;
				2547
				2548	/* THINK if (signal_pending) return ... ? */
				2549
				2550	iov.iov_base = buf;
				2551	iov.iov_len = size;
				2552
				2553	msg.msg_name = NULL;
				2554	msg.msg_namelen = 0;
				2555	msg.msg_control = NULL;
				2556	msg.msg_controllen = 0;
				2557	msg.msg_flags = msg_flags \| MSG_NOSIGNAL;
				2558
				2559	if (sock == mdev->data.socket) {
				2560	mdev->ko_count = mdev->net_conf->ko_count;
				2561	drbd_update_congested(mdev);
				2562	}
				2563	do {
				2564	/* STRANGE
				2565	* tcp_sendmsg does _not_ use its size parameter at all ?
				2566	*
				2567	* -EAGAIN on timeout, -EINTR on signal.
				2568	*/
				2569	/* THINK
				2570	* do we need to block DRBD_SIG if sock == &meta.socket ??
				2571	* otherwise wake_asender() might interrupt some send_*Ack !
				2572	*/
				2573	rv = kernel_sendmsg(sock, &msg, &iov, 1, size);
				2574	if (rv == -EAGAIN) {
				2575	if (we_should_drop_the_connection(mdev, sock))
				2576	break;
				2577	else
				2578	continue;
				2579	}
				2580	D_ASSERT(rv != 0);
				2581	if (rv == -EINTR) {
				2582	flush_signals(current);
				2583	rv = 0;
				2584	}
				2585	if (rv < 0)
				2586	break;
				2587	sent += rv;
				2588	iov.iov_base += rv;
				2589	iov.iov_len -= rv;
				2590	} while (sent < size);
				2591
				2592	if (sock == mdev->data.socket)
				2593	clear_bit(NET_CONGESTED, &mdev->flags);
				2594
				2595	if (rv <= 0) {
				2596	if (rv != -EAGAIN) {
				2597	dev_err(DEV, "%s_sendmsg returned %d\n",
				2598	sock == mdev->meta.socket ? "msock" : "sock",
				2599	rv);
				2600	drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
				2601	} else
				2602	drbd_force_state(mdev, NS(conn, C_TIMEOUT));
				2603	}
				2604
				2605	return sent;
				2606	}
				2607
				2608	static int drbd_open(struct block_device *bdev, fmode_t mode)
				2609	{
				2610	struct drbd_conf *mdev = bdev->bd_disk->private_data;
				2611	unsigned long flags;
				2612	int rv = 0;
				2613
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2614	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2615	spin_lock_irqsave(&mdev->req_lock, flags);
				2616	/* to have a stable mdev->state.role
				2617	* and no race with updating open_cnt */
				2618
				2619	if (mdev->state.role != R_PRIMARY) {
				2620	if (mode & FMODE_WRITE)
				2621	rv = -EROFS;
				2622	else if (!allow_oos)
				2623	rv = -EMEDIUMTYPE;
				2624	}
				2625
				2626	if (!rv)
				2627	mdev->open_cnt++;
				2628	spin_unlock_irqrestore(&mdev->req_lock, flags);
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2629	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2630
				2631	return rv;
				2632	}
				2633
				2634	static int drbd_release(struct gendisk *gd, fmode_t mode)
				2635	{
				2636	struct drbd_conf *mdev = gd->private_data;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2637	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2638	mdev->open_cnt--;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2639	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2640	return 0;
				2641	}
				2642
				2643	static void drbd_unplug_fn(struct request_queue *q)
				2644	{
				2645	struct drbd_conf *mdev = q->queuedata;
				2646
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2647	/* unplug FIRST */
				2648	spin_lock_irq(q->queue_lock);
				2649	blk_remove_plug(q);
				2650	spin_unlock_irq(q->queue_lock);
				2651
				2652	/* only if connected */
				2653	spin_lock_irq(&mdev->req_lock);
				2654	if (mdev->state.pdsk >= D_INCONSISTENT && mdev->state.conn >= C_CONNECTED) {
				2655	D_ASSERT(mdev->state.role == R_PRIMARY);
				2656	if (test_and_clear_bit(UNPLUG_REMOTE, &mdev->flags)) {
				2657	/* add to the data.work queue,
				2658	* unless already queued.
				2659	* XXX this might be a good addition to drbd_queue_work
				2660	* anyways, to detect "double queuing" ... */
				2661	if (list_empty(&mdev->unplug_work.list))
				2662	drbd_queue_work(&mdev->data.work,
				2663	&mdev->unplug_work);
				2664	}
				2665	}
				2666	spin_unlock_irq(&mdev->req_lock);
				2667
				2668	if (mdev->state.disk >= D_INCONSISTENT)
				2669	drbd_kick_lo(mdev);
				2670	}
				2671
				2672	static void drbd_set_defaults(struct drbd_conf *mdev)
				2673	{
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2674	/* This way we get a compile error when sync_conf grows,
				2675	and we forgot to initialize it here */
				2676	mdev->sync_conf = (struct syncer_conf) {
				2677	/* .rate = */ DRBD_RATE_DEF,
				2678	/* .after = */ DRBD_AFTER_DEF,
				2679	/* .al_extents = */ DRBD_AL_EXTENTS_DEF,
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2680	/* .verify_alg = */ {}, 0,
				2681	/* .cpu_mask = */ {}, 0,
				2682	/* .csums_alg = */ {}, 0,
				2683	/* .use_rle = */ 0
				2684	};
				2685
				2686	/* Have to use that way, because the layout differs between
				2687	big endian and little endian */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2688	mdev->state = (union drbd_state) {
				2689	{ .role = R_SECONDARY,
				2690	.peer = R_UNKNOWN,
				2691	.conn = C_STANDALONE,
				2692	.disk = D_DISKLESS,
				2693	.pdsk = D_UNKNOWN,
				2694	.susp = 0
				2695	} };
				2696	}
				2697
				2698	void drbd_init_set_defaults(struct drbd_conf *mdev)
				2699	{
				2700	/* the memset(,0,) did most of this.
				2701	* note: only assignments, no allocation in here */
				2702
				2703	drbd_set_defaults(mdev);
				2704
				2705	/* for now, we do NOT yet support it,
				2706	* even though we start some framework
				2707	* to eventually support barriers */
				2708	set_bit(NO_BARRIER_SUPP, &mdev->flags);
				2709
				2710	atomic_set(&mdev->ap_bio_cnt, 0);
				2711	atomic_set(&mdev->ap_pending_cnt, 0);
				2712	atomic_set(&mdev->rs_pending_cnt, 0);
				2713	atomic_set(&mdev->unacked_cnt, 0);
				2714	atomic_set(&mdev->local_cnt, 0);
				2715	atomic_set(&mdev->net_cnt, 0);
				2716	atomic_set(&mdev->packet_seq, 0);
				2717	atomic_set(&mdev->pp_in_use, 0);
				2718
				2719	mutex_init(&mdev->md_io_mutex);
				2720	mutex_init(&mdev->data.mutex);
				2721	mutex_init(&mdev->meta.mutex);
				2722	sema_init(&mdev->data.work.s, 0);
				2723	sema_init(&mdev->meta.work.s, 0);
				2724	mutex_init(&mdev->state_mutex);
				2725
				2726	spin_lock_init(&mdev->data.work.q_lock);
				2727	spin_lock_init(&mdev->meta.work.q_lock);
				2728
				2729	spin_lock_init(&mdev->al_lock);
				2730	spin_lock_init(&mdev->req_lock);
				2731	spin_lock_init(&mdev->peer_seq_lock);
				2732	spin_lock_init(&mdev->epoch_lock);
				2733
				2734	INIT_LIST_HEAD(&mdev->active_ee);
				2735	INIT_LIST_HEAD(&mdev->sync_ee);
				2736	INIT_LIST_HEAD(&mdev->done_ee);
				2737	INIT_LIST_HEAD(&mdev->read_ee);
				2738	INIT_LIST_HEAD(&mdev->net_ee);
				2739	INIT_LIST_HEAD(&mdev->resync_reads);
				2740	INIT_LIST_HEAD(&mdev->data.work.q);
				2741	INIT_LIST_HEAD(&mdev->meta.work.q);
				2742	INIT_LIST_HEAD(&mdev->resync_work.list);
				2743	INIT_LIST_HEAD(&mdev->unplug_work.list);
				2744	INIT_LIST_HEAD(&mdev->md_sync_work.list);
				2745	INIT_LIST_HEAD(&mdev->bm_io_work.w.list);
Philipp Reisner	0ced55a	2010-04-30 15:26:20 +0200	[diff] [blame]	2746
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2747	mdev->resync_work.cb = w_resync_inactive;
				2748	mdev->unplug_work.cb = w_send_write_hint;
				2749	mdev->md_sync_work.cb = w_md_sync;
				2750	mdev->bm_io_work.w.cb = w_bitmap_io;
				2751	init_timer(&mdev->resync_timer);
				2752	init_timer(&mdev->md_sync_timer);
				2753	mdev->resync_timer.function = resync_timer_fn;
				2754	mdev->resync_timer.data = (unsigned long) mdev;
				2755	mdev->md_sync_timer.function = md_sync_timer_fn;
				2756	mdev->md_sync_timer.data = (unsigned long) mdev;
				2757
				2758	init_waitqueue_head(&mdev->misc_wait);
				2759	init_waitqueue_head(&mdev->state_wait);
				2760	init_waitqueue_head(&mdev->ee_wait);
				2761	init_waitqueue_head(&mdev->al_wait);
				2762	init_waitqueue_head(&mdev->seq_wait);
				2763
				2764	drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
				2765	drbd_thread_init(mdev, &mdev->worker, drbd_worker);
				2766	drbd_thread_init(mdev, &mdev->asender, drbd_asender);
				2767
				2768	mdev->agreed_pro_version = PRO_VERSION_MAX;
				2769	mdev->write_ordering = WO_bio_barrier;
				2770	mdev->resync_wenr = LC_FREE;
				2771	}
				2772
				2773	void drbd_mdev_cleanup(struct drbd_conf *mdev)
				2774	{
				2775	if (mdev->receiver.t_state != None)
				2776	dev_err(DEV, "ASSERT FAILED: receiver t_state == %d expected 0.\n",
				2777	mdev->receiver.t_state);
				2778
				2779	/* no need to lock it, I'm the only thread alive */
				2780	if (atomic_read(&mdev->current_epoch->epoch_size) != 0)
				2781	dev_err(DEV, "epoch_size:%d\n", atomic_read(&mdev->current_epoch->epoch_size));
				2782	mdev->al_writ_cnt =
				2783	mdev->bm_writ_cnt =
				2784	mdev->read_cnt =
				2785	mdev->recv_cnt =
				2786	mdev->send_cnt =
				2787	mdev->writ_cnt =
				2788	mdev->p_size =
				2789	mdev->rs_start =
				2790	mdev->rs_total =
				2791	mdev->rs_failed =
				2792	mdev->rs_mark_left =
				2793	mdev->rs_mark_time = 0;
				2794	D_ASSERT(mdev->net_conf == NULL);
				2795
				2796	drbd_set_my_capacity(mdev, 0);
				2797	if (mdev->bitmap) {
				2798	/* maybe never allocated. */
Philipp Reisner	02d9a94	2010-03-24 16:23:03 +0100	[diff] [blame]	2799	drbd_bm_resize(mdev, 0, 1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2800	drbd_bm_cleanup(mdev);
				2801	}
				2802
				2803	drbd_free_resources(mdev);
				2804
				2805	/*
				2806	* currently we drbd_init_ee only on module load, so
				2807	* we may do drbd_release_ee only on module unload!
				2808	*/
				2809	D_ASSERT(list_empty(&mdev->active_ee));
				2810	D_ASSERT(list_empty(&mdev->sync_ee));
				2811	D_ASSERT(list_empty(&mdev->done_ee));
				2812	D_ASSERT(list_empty(&mdev->read_ee));
				2813	D_ASSERT(list_empty(&mdev->net_ee));
				2814	D_ASSERT(list_empty(&mdev->resync_reads));
				2815	D_ASSERT(list_empty(&mdev->data.work.q));
				2816	D_ASSERT(list_empty(&mdev->meta.work.q));
				2817	D_ASSERT(list_empty(&mdev->resync_work.list));
				2818	D_ASSERT(list_empty(&mdev->unplug_work.list));
				2819
				2820	}
				2821
				2822
				2823	static void drbd_destroy_mempools(void)
				2824	{
				2825	struct page *page;
				2826
				2827	while (drbd_pp_pool) {
				2828	page = drbd_pp_pool;
				2829	drbd_pp_pool = (struct page *)page_private(page);
				2830	__free_page(page);
				2831	drbd_pp_vacant--;
				2832	}
				2833
				2834	/* D_ASSERT(atomic_read(&drbd_pp_vacant)==0); */
				2835
				2836	if (drbd_ee_mempool)
				2837	mempool_destroy(drbd_ee_mempool);
				2838	if (drbd_request_mempool)
				2839	mempool_destroy(drbd_request_mempool);
				2840	if (drbd_ee_cache)
				2841	kmem_cache_destroy(drbd_ee_cache);
				2842	if (drbd_request_cache)
				2843	kmem_cache_destroy(drbd_request_cache);
				2844	if (drbd_bm_ext_cache)
				2845	kmem_cache_destroy(drbd_bm_ext_cache);
				2846	if (drbd_al_ext_cache)
				2847	kmem_cache_destroy(drbd_al_ext_cache);
				2848
				2849	drbd_ee_mempool = NULL;
				2850	drbd_request_mempool = NULL;
				2851	drbd_ee_cache = NULL;
				2852	drbd_request_cache = NULL;
				2853	drbd_bm_ext_cache = NULL;
				2854	drbd_al_ext_cache = NULL;
				2855
				2856	return;
				2857	}
				2858
				2859	static int drbd_create_mempools(void)
				2860	{
				2861	struct page *page;
				2862	const int number = (DRBD_MAX_SEGMENT_SIZE/PAGE_SIZE) * minor_count;
				2863	int i;
				2864
				2865	/* prepare our caches and mempools */
				2866	drbd_request_mempool = NULL;
				2867	drbd_ee_cache = NULL;
				2868	drbd_request_cache = NULL;
				2869	drbd_bm_ext_cache = NULL;
				2870	drbd_al_ext_cache = NULL;
				2871	drbd_pp_pool = NULL;
				2872
				2873	/* caches */
				2874	drbd_request_cache = kmem_cache_create(
				2875	"drbd_req", sizeof(struct drbd_request), 0, 0, NULL);
				2876	if (drbd_request_cache == NULL)
				2877	goto Enomem;
				2878
				2879	drbd_ee_cache = kmem_cache_create(
				2880	"drbd_ee", sizeof(struct drbd_epoch_entry), 0, 0, NULL);
				2881	if (drbd_ee_cache == NULL)
				2882	goto Enomem;
				2883
				2884	drbd_bm_ext_cache = kmem_cache_create(
				2885	"drbd_bm", sizeof(struct bm_extent), 0, 0, NULL);
				2886	if (drbd_bm_ext_cache == NULL)
				2887	goto Enomem;
				2888
				2889	drbd_al_ext_cache = kmem_cache_create(
				2890	"drbd_al", sizeof(struct lc_element), 0, 0, NULL);
				2891	if (drbd_al_ext_cache == NULL)
				2892	goto Enomem;
				2893
				2894	/* mempools */
				2895	drbd_request_mempool = mempool_create(number,
				2896	mempool_alloc_slab, mempool_free_slab, drbd_request_cache);
				2897	if (drbd_request_mempool == NULL)
				2898	goto Enomem;
				2899
				2900	drbd_ee_mempool = mempool_create(number,
				2901	mempool_alloc_slab, mempool_free_slab, drbd_ee_cache);
				2902	if (drbd_request_mempool == NULL)
				2903	goto Enomem;
				2904
				2905	/* drbd's page pool */
				2906	spin_lock_init(&drbd_pp_lock);
				2907
				2908	for (i = 0; i < number; i++) {
				2909	page = alloc_page(GFP_HIGHUSER);
				2910	if (!page)
				2911	goto Enomem;
				2912	set_page_private(page, (unsigned long)drbd_pp_pool);
				2913	drbd_pp_pool = page;
				2914	}
				2915	drbd_pp_vacant = number;
				2916
				2917	return 0;
				2918
				2919	Enomem:
				2920	drbd_destroy_mempools(); /* in case we allocated some */
				2921	return -ENOMEM;
				2922	}
				2923
				2924	static int drbd_notify_sys(struct notifier_block *this, unsigned long code,
				2925	void *unused)
				2926	{
				2927	/* just so we have it. you never know what interesting things we
				2928	* might want to do here some day...
				2929	*/
				2930
				2931	return NOTIFY_DONE;
				2932	}
				2933
				2934	static struct notifier_block drbd_notifier = {
				2935	.notifier_call = drbd_notify_sys,
				2936	};
				2937
				2938	static void drbd_release_ee_lists(struct drbd_conf *mdev)
				2939	{
				2940	int rr;
				2941
				2942	rr = drbd_release_ee(mdev, &mdev->active_ee);
				2943	if (rr)
				2944	dev_err(DEV, "%d EEs in active list found!\n", rr);
				2945
				2946	rr = drbd_release_ee(mdev, &mdev->sync_ee);
				2947	if (rr)
				2948	dev_err(DEV, "%d EEs in sync list found!\n", rr);
				2949
				2950	rr = drbd_release_ee(mdev, &mdev->read_ee);
				2951	if (rr)
				2952	dev_err(DEV, "%d EEs in read list found!\n", rr);
				2953
				2954	rr = drbd_release_ee(mdev, &mdev->done_ee);
				2955	if (rr)
				2956	dev_err(DEV, "%d EEs in done list found!\n", rr);
				2957
				2958	rr = drbd_release_ee(mdev, &mdev->net_ee);
				2959	if (rr)
				2960	dev_err(DEV, "%d EEs in net list found!\n", rr);
				2961	}
				2962
				2963	/* caution. no locking.
				2964	* currently only used from module cleanup code. */
				2965	static void drbd_delete_device(unsigned int minor)
				2966	{
				2967	struct drbd_conf *mdev = minor_to_mdev(minor);
				2968
				2969	if (!mdev)
				2970	return;
				2971
				2972	/* paranoia asserts */
				2973	if (mdev->open_cnt != 0)
				2974	dev_err(DEV, "open_cnt = %d in %s:%u", mdev->open_cnt,
				2975	__FILE__ , __LINE__);
				2976
				2977	ERR_IF (!list_empty(&mdev->data.work.q)) {
				2978	struct list_head *lp;
				2979	list_for_each(lp, &mdev->data.work.q) {
				2980	dev_err(DEV, "lp = %p\n", lp);
				2981	}
				2982	};
				2983	/* end paranoia asserts */
				2984
				2985	del_gendisk(mdev->vdisk);
				2986
				2987	/* cleanup stuff that may have been allocated during
				2988	* device (re-)configuration or state changes */
				2989
				2990	if (mdev->this_bdev)
				2991	bdput(mdev->this_bdev);
				2992
				2993	drbd_free_resources(mdev);
				2994
				2995	drbd_release_ee_lists(mdev);
				2996
				2997	/* should be free'd on disconnect? */
				2998	kfree(mdev->ee_hash);
				2999	/*
				3000	mdev->ee_hash_s = 0;
				3001	mdev->ee_hash = NULL;
				3002	*/
				3003
				3004	lc_destroy(mdev->act_log);
				3005	lc_destroy(mdev->resync);
				3006
				3007	kfree(mdev->p_uuid);
				3008	/* mdev->p_uuid = NULL; */
				3009
				3010	kfree(mdev->int_dig_out);
				3011	kfree(mdev->int_dig_in);
				3012	kfree(mdev->int_dig_vv);
				3013
				3014	/* cleanup the rest that has been
				3015	* allocated from drbd_new_device
				3016	* and actually free the mdev itself */
				3017	drbd_free_mdev(mdev);
				3018	}
				3019
				3020	static void drbd_cleanup(void)
				3021	{
				3022	unsigned int i;
				3023
				3024	unregister_reboot_notifier(&drbd_notifier);
				3025
				3026	drbd_nl_cleanup();
				3027
				3028	if (minor_table) {
				3029	if (drbd_proc)
				3030	remove_proc_entry("drbd", NULL);
				3031	i = minor_count;
				3032	while (i--)
				3033	drbd_delete_device(i);
				3034	drbd_destroy_mempools();
				3035	}
				3036
				3037	kfree(minor_table);
				3038
				3039	unregister_blkdev(DRBD_MAJOR, "drbd");
				3040
				3041	printk(KERN_INFO "drbd: module cleanup done.\n");
				3042	}
				3043
				3044	/**
				3045	* drbd_congested() - Callback for pdflush
				3046	* @congested_data: User data
				3047	* @bdi_bits: Bits pdflush is currently interested in
				3048	*
				3049	* Returns 1<<BDI_async_congested and/or 1<<BDI_sync_congested if we are congested.
				3050	*/
				3051	static int drbd_congested(void *congested_data, int bdi_bits)
				3052	{
				3053	struct drbd_conf *mdev = congested_data;
				3054	struct request_queue *q;
				3055	char reason = '-';
				3056	int r = 0;
				3057
				3058	if (!__inc_ap_bio_cond(mdev)) {
				3059	/* DRBD has frozen IO */
				3060	r = bdi_bits;
				3061	reason = 'd';
				3062	goto out;
				3063	}
				3064
				3065	if (get_ldev(mdev)) {
				3066	q = bdev_get_queue(mdev->ldev->backing_bdev);
				3067	r = bdi_congested(&q->backing_dev_info, bdi_bits);
				3068	put_ldev(mdev);
				3069	if (r)
				3070	reason = 'b';
				3071	}
				3072
				3073	if (bdi_bits & (1 << BDI_async_congested) && test_bit(NET_CONGESTED, &mdev->flags)) {
				3074	r \|= (1 << BDI_async_congested);
				3075	reason = reason == 'b' ? 'a' : 'n';
				3076	}
				3077
				3078	out:
				3079	mdev->congestion_reason = reason;
				3080	return r;
				3081	}
				3082
				3083	struct drbd_conf *drbd_new_device(unsigned int minor)
				3084	{
				3085	struct drbd_conf *mdev;
				3086	struct gendisk *disk;
				3087	struct request_queue *q;
				3088
				3089	/* GFP_KERNEL, we are outside of all write-out paths */
				3090	mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
				3091	if (!mdev)
				3092	return NULL;
				3093	if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
				3094	goto out_no_cpumask;
				3095
				3096	mdev->minor = minor;
				3097
				3098	drbd_init_set_defaults(mdev);
				3099
				3100	q = blk_alloc_queue(GFP_KERNEL);
				3101	if (!q)
				3102	goto out_no_q;
				3103	mdev->rq_queue = q;
				3104	q->queuedata = mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3105
				3106	disk = alloc_disk(1);
				3107	if (!disk)
				3108	goto out_no_disk;
				3109	mdev->vdisk = disk;
				3110
				3111	set_disk_ro(disk, TRUE);
				3112
				3113	disk->queue = q;
				3114	disk->major = DRBD_MAJOR;
				3115	disk->first_minor = minor;
				3116	disk->fops = &drbd_ops;
				3117	sprintf(disk->disk_name, "drbd%d", minor);
				3118	disk->private_data = mdev;
				3119
				3120	mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
				3121	/* we have no partitions. we contain only ourselves. */
				3122	mdev->this_bdev->bd_contains = mdev->this_bdev;
				3123
				3124	q->backing_dev_info.congested_fn = drbd_congested;
				3125	q->backing_dev_info.congested_data = mdev;
				3126
				3127	blk_queue_make_request(q, drbd_make_request_26);
Lars Ellenberg	98ec286	2010-01-21 19:33:14 +0100	[diff] [blame]	3128	blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3129	blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
				3130	blk_queue_merge_bvec(q, drbd_merge_bvec);
				3131	q->queue_lock = &mdev->req_lock; /* needed since we use */
				3132	/* plugging on a queue, that actually has no requests! */
				3133	q->unplug_fn = drbd_unplug_fn;
				3134
				3135	mdev->md_io_page = alloc_page(GFP_KERNEL);
				3136	if (!mdev->md_io_page)
				3137	goto out_no_io_page;
				3138
				3139	if (drbd_bm_init(mdev))
				3140	goto out_no_bitmap;
				3141	/* no need to lock access, we are still initializing this minor device. */
				3142	if (!tl_init(mdev))
				3143	goto out_no_tl;
				3144
				3145	mdev->app_reads_hash = kzalloc(APP_R_HSIZEsizeof(void ), GFP_KERNEL);
				3146	if (!mdev->app_reads_hash)
				3147	goto out_no_app_reads;
				3148
				3149	mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
				3150	if (!mdev->current_epoch)
				3151	goto out_no_epoch;
				3152
				3153	INIT_LIST_HEAD(&mdev->current_epoch->list);
				3154	mdev->epochs = 1;
				3155
				3156	return mdev;
				3157
				3158	/* out_whatever_else:
				3159	kfree(mdev->current_epoch); */
				3160	out_no_epoch:
				3161	kfree(mdev->app_reads_hash);
				3162	out_no_app_reads:
				3163	tl_cleanup(mdev);
				3164	out_no_tl:
				3165	drbd_bm_cleanup(mdev);
				3166	out_no_bitmap:
				3167	__free_page(mdev->md_io_page);
				3168	out_no_io_page:
				3169	put_disk(disk);
				3170	out_no_disk:
				3171	blk_cleanup_queue(q);
				3172	out_no_q:
				3173	free_cpumask_var(mdev->cpu_mask);
				3174	out_no_cpumask:
				3175	kfree(mdev);
				3176	return NULL;
				3177	}
				3178
				3179	/* counterpart of drbd_new_device.
				3180	* last part of drbd_delete_device. */
				3181	void drbd_free_mdev(struct drbd_conf *mdev)
				3182	{
				3183	kfree(mdev->current_epoch);
				3184	kfree(mdev->app_reads_hash);
				3185	tl_cleanup(mdev);
				3186	if (mdev->bitmap) /* should no longer be there. */
				3187	drbd_bm_cleanup(mdev);
				3188	__free_page(mdev->md_io_page);
				3189	put_disk(mdev->vdisk);
				3190	blk_cleanup_queue(mdev->rq_queue);
				3191	free_cpumask_var(mdev->cpu_mask);
				3192	kfree(mdev);
				3193	}
				3194
				3195
				3196	int __init drbd_init(void)
				3197	{
				3198	int err;
				3199
				3200	if (sizeof(struct p_handshake) != 80) {
				3201	printk(KERN_ERR
				3202	"drbd: never change the size or layout "
				3203	"of the HandShake packet.\n");
				3204	return -EINVAL;
				3205	}
				3206
				3207	if (1 > minor_count \|\| minor_count > 255) {
				3208	printk(KERN_ERR
				3209	"drbd: invalid minor_count (%d)\n", minor_count);
				3210	#ifdef MODULE
				3211	return -EINVAL;
				3212	#else
				3213	minor_count = 8;
				3214	#endif
				3215	}
				3216
				3217	err = drbd_nl_init();
				3218	if (err)
				3219	return err;
				3220
				3221	err = register_blkdev(DRBD_MAJOR, "drbd");
				3222	if (err) {
				3223	printk(KERN_ERR
				3224	"drbd: unable to register block device major %d\n",
				3225	DRBD_MAJOR);
				3226	return err;
				3227	}
				3228
				3229	register_reboot_notifier(&drbd_notifier);
				3230
				3231	/*
				3232	* allocate all necessary structs
				3233	*/
				3234	err = -ENOMEM;
				3235
				3236	init_waitqueue_head(&drbd_pp_wait);
				3237
				3238	drbd_proc = NULL; /* play safe for drbd_cleanup */
				3239	minor_table = kzalloc(sizeof(struct drbd_conf )minor_count,
				3240	GFP_KERNEL);
				3241	if (!minor_table)
				3242	goto Enomem;
				3243
				3244	err = drbd_create_mempools();
				3245	if (err)
				3246	goto Enomem;
				3247
Lars Ellenberg	8c484ee	2010-03-11 16:47:58 +0100	[diff] [blame]	3248	drbd_proc = proc_create_data("drbd", S_IFREG \| S_IRUGO , NULL, &drbd_proc_fops, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3249	if (!drbd_proc) {
				3250	printk(KERN_ERR "drbd: unable to register proc file\n");
				3251	goto Enomem;
				3252	}
				3253
				3254	rwlock_init(&global_state_lock);
				3255
				3256	printk(KERN_INFO "drbd: initialized. "
				3257	"Version: " REL_VERSION " (api:%d/proto:%d-%d)\n",
				3258	API_VERSION, PRO_VERSION_MIN, PRO_VERSION_MAX);
				3259	printk(KERN_INFO "drbd: %s\n", drbd_buildtag());
				3260	printk(KERN_INFO "drbd: registered as block device major %d\n",
				3261	DRBD_MAJOR);
				3262	printk(KERN_INFO "drbd: minor_table @ 0x%p\n", minor_table);
				3263
				3264	return 0; /* Success! */
				3265
				3266	Enomem:
				3267	drbd_cleanup();
				3268	if (err == -ENOMEM)
				3269	/* currently always the case */
				3270	printk(KERN_ERR "drbd: ran out of memory\n");
				3271	else
				3272	printk(KERN_ERR "drbd: initialization failure\n");
				3273	return err;
				3274	}
				3275
				3276	void drbd_free_bc(struct drbd_backing_dev *ldev)
				3277	{
				3278	if (ldev == NULL)
				3279	return;
				3280
				3281	bd_release(ldev->backing_bdev);
				3282	bd_release(ldev->md_bdev);
				3283
				3284	fput(ldev->lo_file);
				3285	fput(ldev->md_file);
				3286
				3287	kfree(ldev);
				3288	}
				3289
				3290	void drbd_free_sock(struct drbd_conf *mdev)
				3291	{
				3292	if (mdev->data.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3293	mutex_lock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3294	kernel_sock_shutdown(mdev->data.socket, SHUT_RDWR);
				3295	sock_release(mdev->data.socket);
				3296	mdev->data.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3297	mutex_unlock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3298	}
				3299	if (mdev->meta.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3300	mutex_lock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3301	kernel_sock_shutdown(mdev->meta.socket, SHUT_RDWR);
				3302	sock_release(mdev->meta.socket);
				3303	mdev->meta.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3304	mutex_unlock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3305	}
				3306	}
				3307
				3308
				3309	void drbd_free_resources(struct drbd_conf *mdev)
				3310	{
				3311	crypto_free_hash(mdev->csums_tfm);
				3312	mdev->csums_tfm = NULL;
				3313	crypto_free_hash(mdev->verify_tfm);
				3314	mdev->verify_tfm = NULL;
				3315	crypto_free_hash(mdev->cram_hmac_tfm);
				3316	mdev->cram_hmac_tfm = NULL;
				3317	crypto_free_hash(mdev->integrity_w_tfm);
				3318	mdev->integrity_w_tfm = NULL;
				3319	crypto_free_hash(mdev->integrity_r_tfm);
				3320	mdev->integrity_r_tfm = NULL;
				3321
				3322	drbd_free_sock(mdev);
				3323
				3324	__no_warn(local,
				3325	drbd_free_bc(mdev->ldev);
				3326	mdev->ldev = NULL;);
				3327	}
				3328
				3329	/* meta data management */
				3330
				3331	struct meta_data_on_disk {
				3332	u64 la_size; /* last agreed size. */
				3333	u64 uuid[UI_SIZE]; /* UUIDs. */
				3334	u64 device_uuid;
				3335	u64 reserved_u64_1;
				3336	u32 flags; /* MDF */
				3337	u32 magic;
				3338	u32 md_size_sect;
				3339	u32 al_offset; /* offset to this block */
				3340	u32 al_nr_extents; /* important for restoring the AL */
				3341	/* `-- act_log->nr_elements <-- sync_conf.al_extents */
				3342	u32 bm_offset; /* offset to the bitmap, from here */
				3343	u32 bm_bytes_per_bit; /* BM_BLOCK_SIZE */
				3344	u32 reserved_u32[4];
				3345
				3346	} __packed;
				3347
				3348	/**
				3349	* drbd_md_sync() - Writes the meta data super block if the MD_DIRTY flag bit is set
				3350	* @mdev: DRBD device.
				3351	*/
				3352	void drbd_md_sync(struct drbd_conf *mdev)
				3353	{
				3354	struct meta_data_on_disk *buffer;
				3355	sector_t sector;
				3356	int i;
				3357
				3358	if (!test_and_clear_bit(MD_DIRTY, &mdev->flags))
				3359	return;
				3360	del_timer(&mdev->md_sync_timer);
				3361
				3362	/* We use here D_FAILED and not D_ATTACHING because we try to write
				3363	* metadata even if we detach due to a disk failure! */
				3364	if (!get_ldev_if_state(mdev, D_FAILED))
				3365	return;
				3366
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3367	mutex_lock(&mdev->md_io_mutex);
				3368	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3369	memset(buffer, 0, 512);
				3370
				3371	buffer->la_size = cpu_to_be64(drbd_get_capacity(mdev->this_bdev));
				3372	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3373	buffer->uuid[i] = cpu_to_be64(mdev->ldev->md.uuid[i]);
				3374	buffer->flags = cpu_to_be32(mdev->ldev->md.flags);
				3375	buffer->magic = cpu_to_be32(DRBD_MD_MAGIC);
				3376
				3377	buffer->md_size_sect = cpu_to_be32(mdev->ldev->md.md_size_sect);
				3378	buffer->al_offset = cpu_to_be32(mdev->ldev->md.al_offset);
				3379	buffer->al_nr_extents = cpu_to_be32(mdev->act_log->nr_elements);
				3380	buffer->bm_bytes_per_bit = cpu_to_be32(BM_BLOCK_SIZE);
				3381	buffer->device_uuid = cpu_to_be64(mdev->ldev->md.device_uuid);
				3382
				3383	buffer->bm_offset = cpu_to_be32(mdev->ldev->md.bm_offset);
				3384
				3385	D_ASSERT(drbd_md_ss__(mdev, mdev->ldev) == mdev->ldev->md.md_offset);
				3386	sector = mdev->ldev->md.md_offset;
				3387
				3388	if (drbd_md_sync_page_io(mdev, mdev->ldev, sector, WRITE)) {
				3389	clear_bit(MD_DIRTY, &mdev->flags);
				3390	} else {
				3391	/* this was a try anyways ... */
				3392	dev_err(DEV, "meta data update failed!\n");
				3393
				3394	drbd_chk_io_error(mdev, 1, TRUE);
				3395	}
				3396
				3397	/* Update mdev->ldev->md.la_size_sect,
				3398	* since we updated it on metadata. */
				3399	mdev->ldev->md.la_size_sect = drbd_get_capacity(mdev->this_bdev);
				3400
				3401	mutex_unlock(&mdev->md_io_mutex);
				3402	put_ldev(mdev);
				3403	}
				3404
				3405	/**
				3406	* drbd_md_read() - Reads in the meta data super block
				3407	* @mdev: DRBD device.
				3408	* @bdev: Device from which the meta data should be read in.
				3409	*
				3410	* Return 0 (NO_ERROR) on success, and an enum drbd_ret_codes in case
				3411	* something goes wrong. Currently only: ERR_IO_MD_DISK, ERR_MD_INVALID.
				3412	*/
				3413	int drbd_md_read(struct drbd_conf mdev, struct drbd_backing_dev bdev)
				3414	{
				3415	struct meta_data_on_disk *buffer;
				3416	int i, rv = NO_ERROR;
				3417
				3418	if (!get_ldev_if_state(mdev, D_ATTACHING))
				3419	return ERR_IO_MD_DISK;
				3420
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3421	mutex_lock(&mdev->md_io_mutex);
				3422	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3423
				3424	if (!drbd_md_sync_page_io(mdev, bdev, bdev->md.md_offset, READ)) {
				3425	/* NOTE: cant do normal error processing here as this is
				3426	called BEFORE disk is attached */
				3427	dev_err(DEV, "Error while reading metadata.\n");
				3428	rv = ERR_IO_MD_DISK;
				3429	goto err;
				3430	}
				3431
				3432	if (be32_to_cpu(buffer->magic) != DRBD_MD_MAGIC) {
				3433	dev_err(DEV, "Error while reading metadata, magic not found.\n");
				3434	rv = ERR_MD_INVALID;
				3435	goto err;
				3436	}
				3437	if (be32_to_cpu(buffer->al_offset) != bdev->md.al_offset) {
				3438	dev_err(DEV, "unexpected al_offset: %d (expected %d)\n",
				3439	be32_to_cpu(buffer->al_offset), bdev->md.al_offset);
				3440	rv = ERR_MD_INVALID;
				3441	goto err;
				3442	}
				3443	if (be32_to_cpu(buffer->bm_offset) != bdev->md.bm_offset) {
				3444	dev_err(DEV, "unexpected bm_offset: %d (expected %d)\n",
				3445	be32_to_cpu(buffer->bm_offset), bdev->md.bm_offset);
				3446	rv = ERR_MD_INVALID;
				3447	goto err;
				3448	}
				3449	if (be32_to_cpu(buffer->md_size_sect) != bdev->md.md_size_sect) {
				3450	dev_err(DEV, "unexpected md_size: %u (expected %u)\n",
				3451	be32_to_cpu(buffer->md_size_sect), bdev->md.md_size_sect);
				3452	rv = ERR_MD_INVALID;
				3453	goto err;
				3454	}
				3455
				3456	if (be32_to_cpu(buffer->bm_bytes_per_bit) != BM_BLOCK_SIZE) {
				3457	dev_err(DEV, "unexpected bm_bytes_per_bit: %u (expected %u)\n",
				3458	be32_to_cpu(buffer->bm_bytes_per_bit), BM_BLOCK_SIZE);
				3459	rv = ERR_MD_INVALID;
				3460	goto err;
				3461	}
				3462
				3463	bdev->md.la_size_sect = be64_to_cpu(buffer->la_size);
				3464	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3465	bdev->md.uuid[i] = be64_to_cpu(buffer->uuid[i]);
				3466	bdev->md.flags = be32_to_cpu(buffer->flags);
				3467	mdev->sync_conf.al_extents = be32_to_cpu(buffer->al_nr_extents);
				3468	bdev->md.device_uuid = be64_to_cpu(buffer->device_uuid);
				3469
				3470	if (mdev->sync_conf.al_extents < 7)
				3471	mdev->sync_conf.al_extents = 127;
				3472
				3473	err:
				3474	mutex_unlock(&mdev->md_io_mutex);
				3475	put_ldev(mdev);
				3476
				3477	return rv;
				3478	}
				3479
				3480	/**
				3481	* drbd_md_mark_dirty() - Mark meta data super block as dirty
				3482	* @mdev: DRBD device.
				3483	*
				3484	* Call this function if you change anything that should be written to
				3485	* the meta-data super block. This function sets MD_DIRTY, and starts a
				3486	* timer that ensures that within five seconds you have to call drbd_md_sync().
				3487	*/
				3488	void drbd_md_mark_dirty(struct drbd_conf *mdev)
				3489	{
				3490	set_bit(MD_DIRTY, &mdev->flags);
				3491	mod_timer(&mdev->md_sync_timer, jiffies + 5*HZ);
				3492	}
				3493
				3494
				3495	static void drbd_uuid_move_history(struct drbd_conf *mdev) __must_hold(local)
				3496	{
				3497	int i;
				3498
Jens Axboe	6a0afdf	2009-10-01 09:04:14 +0200	[diff] [blame]	3499	for (i = UI_HISTORY_START; i < UI_HISTORY_END; i++)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3500	mdev->ldev->md.uuid[i+1] = mdev->ldev->md.uuid[i];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3501	}
				3502
				3503	void _drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3504	{
				3505	if (idx == UI_CURRENT) {
				3506	if (mdev->state.role == R_PRIMARY)
				3507	val \|= 1;
				3508	else
				3509	val &= ~((u64)1);
				3510
				3511	drbd_set_ed_uuid(mdev, val);
				3512	}
				3513
				3514	mdev->ldev->md.uuid[idx] = val;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3515	drbd_md_mark_dirty(mdev);
				3516	}
				3517
				3518
				3519	void drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3520	{
				3521	if (mdev->ldev->md.uuid[idx]) {
				3522	drbd_uuid_move_history(mdev);
				3523	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[idx];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3524	}
				3525	_drbd_uuid_set(mdev, idx, val);
				3526	}
				3527
				3528	/**
				3529	* drbd_uuid_new_current() - Creates a new current UUID
				3530	* @mdev: DRBD device.
				3531	*
				3532	* Creates a new current UUID, and rotates the old current UUID into
				3533	* the bitmap slot. Causes an incremental resync upon next connect.
				3534	*/
				3535	void drbd_uuid_new_current(struct drbd_conf *mdev) __must_hold(local)
				3536	{
				3537	u64 val;
				3538
				3539	dev_info(DEV, "Creating new current UUID\n");
				3540	D_ASSERT(mdev->ldev->md.uuid[UI_BITMAP] == 0);
				3541	mdev->ldev->md.uuid[UI_BITMAP] = mdev->ldev->md.uuid[UI_CURRENT];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3542
				3543	get_random_bytes(&val, sizeof(u64));
				3544	_drbd_uuid_set(mdev, UI_CURRENT, val);
				3545	}
				3546
				3547	void drbd_uuid_set_bm(struct drbd_conf *mdev, u64 val) __must_hold(local)
				3548	{
				3549	if (mdev->ldev->md.uuid[UI_BITMAP] == 0 && val == 0)
				3550	return;
				3551
				3552	if (val == 0) {
				3553	drbd_uuid_move_history(mdev);
				3554	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[UI_BITMAP];
				3555	mdev->ldev->md.uuid[UI_BITMAP] = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3556	} else {
				3557	if (mdev->ldev->md.uuid[UI_BITMAP])
				3558	dev_warn(DEV, "bm UUID already set");
				3559
				3560	mdev->ldev->md.uuid[UI_BITMAP] = val;
				3561	mdev->ldev->md.uuid[UI_BITMAP] &= ~((u64)1);
				3562
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3563	}
				3564	drbd_md_mark_dirty(mdev);
				3565	}
				3566
				3567	/**
				3568	* drbd_bmio_set_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3569	* @mdev: DRBD device.
				3570	*
				3571	* Sets all bits in the bitmap and writes the whole bitmap to stable storage.
				3572	*/
				3573	int drbd_bmio_set_n_write(struct drbd_conf *mdev)
				3574	{
				3575	int rv = -EIO;
				3576
				3577	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3578	drbd_md_set_flag(mdev, MDF_FULL_SYNC);
				3579	drbd_md_sync(mdev);
				3580	drbd_bm_set_all(mdev);
				3581
				3582	rv = drbd_bm_write(mdev);
				3583
				3584	if (!rv) {
				3585	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				3586	drbd_md_sync(mdev);
				3587	}
				3588
				3589	put_ldev(mdev);
				3590	}
				3591
				3592	return rv;
				3593	}
				3594
				3595	/**
				3596	* drbd_bmio_clear_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3597	* @mdev: DRBD device.
				3598	*
				3599	* Clears all bits in the bitmap and writes the whole bitmap to stable storage.
				3600	*/
				3601	int drbd_bmio_clear_n_write(struct drbd_conf *mdev)
				3602	{
				3603	int rv = -EIO;
				3604
				3605	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3606	drbd_bm_clear_all(mdev);
				3607	rv = drbd_bm_write(mdev);
				3608	put_ldev(mdev);
				3609	}
				3610
				3611	return rv;
				3612	}
				3613
				3614	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused)
				3615	{
				3616	struct bm_io_work *work = container_of(w, struct bm_io_work, w);
				3617	int rv;
				3618
				3619	D_ASSERT(atomic_read(&mdev->ap_bio_cnt) == 0);
				3620
				3621	drbd_bm_lock(mdev, work->why);
				3622	rv = work->io_fn(mdev);
				3623	drbd_bm_unlock(mdev);
				3624
				3625	clear_bit(BITMAP_IO, &mdev->flags);
				3626	wake_up(&mdev->misc_wait);
				3627
				3628	if (work->done)
				3629	work->done(mdev, rv);
				3630
				3631	clear_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3632	work->why = NULL;
				3633
				3634	return 1;
				3635	}
				3636
				3637	/**
				3638	* drbd_queue_bitmap_io() - Queues an IO operation on the whole bitmap
				3639	* @mdev: DRBD device.
				3640	* @io_fn: IO callback to be called when bitmap IO is possible
				3641	* @done: callback to be called after the bitmap IO was performed
				3642	* @why: Descriptive text of the reason for doing the IO
				3643	*
				3644	* While IO on the bitmap happens we freeze application IO thus we ensure
				3645	* that drbd_set_out_of_sync() can not be called. This function MAY ONLY be
				3646	* called from worker context. It MUST NOT be used while a previous such
				3647	* work is still pending!
				3648	*/
				3649	void drbd_queue_bitmap_io(struct drbd_conf *mdev,
				3650	int (io_fn)(struct drbd_conf ),
				3651	void (done)(struct drbd_conf , int),
				3652	char *why)
				3653	{
				3654	D_ASSERT(current == mdev->worker.task);
				3655
				3656	D_ASSERT(!test_bit(BITMAP_IO_QUEUED, &mdev->flags));
				3657	D_ASSERT(!test_bit(BITMAP_IO, &mdev->flags));
				3658	D_ASSERT(list_empty(&mdev->bm_io_work.w.list));
				3659	if (mdev->bm_io_work.why)
				3660	dev_err(DEV, "FIXME going to queue '%s' but '%s' still pending?\n",
				3661	why, mdev->bm_io_work.why);
				3662
				3663	mdev->bm_io_work.io_fn = io_fn;
				3664	mdev->bm_io_work.done = done;
				3665	mdev->bm_io_work.why = why;
				3666
				3667	set_bit(BITMAP_IO, &mdev->flags);
				3668	if (atomic_read(&mdev->ap_bio_cnt) == 0) {
				3669	if (list_empty(&mdev->bm_io_work.w.list)) {
				3670	set_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3671	drbd_queue_work(&mdev->data.work, &mdev->bm_io_work.w);
				3672	} else
				3673	dev_err(DEV, "FIXME avoided double queuing bm_io_work\n");
				3674	}
				3675	}
				3676
				3677	/**
				3678	* drbd_bitmap_io() - Does an IO operation on the whole bitmap
				3679	* @mdev: DRBD device.
				3680	* @io_fn: IO callback to be called when bitmap IO is possible
				3681	* @why: Descriptive text of the reason for doing the IO
				3682	*
				3683	* freezes application IO while that the actual IO operations runs. This
				3684	* functions MAY NOT be called from worker context.
				3685	*/
				3686	int drbd_bitmap_io(struct drbd_conf mdev, int (io_fn)(struct drbd_conf ), char why)
				3687	{
				3688	int rv;
				3689
				3690	D_ASSERT(current != mdev->worker.task);
				3691
				3692	drbd_suspend_io(mdev);
				3693
				3694	drbd_bm_lock(mdev, why);
				3695	rv = io_fn(mdev);
				3696	drbd_bm_unlock(mdev);
				3697
				3698	drbd_resume_io(mdev);
				3699
				3700	return rv;
				3701	}
				3702
				3703	void drbd_md_set_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3704	{
				3705	if ((mdev->ldev->md.flags & flag) != flag) {
				3706	drbd_md_mark_dirty(mdev);
				3707	mdev->ldev->md.flags \|= flag;
				3708	}
				3709	}
				3710
				3711	void drbd_md_clear_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3712	{
				3713	if ((mdev->ldev->md.flags & flag) != 0) {
				3714	drbd_md_mark_dirty(mdev);
				3715	mdev->ldev->md.flags &= ~flag;
				3716	}
				3717	}
				3718	int drbd_md_test_flag(struct drbd_backing_dev *bdev, int flag)
				3719	{
				3720	return (bdev->md.flags & flag) != 0;
				3721	}
				3722
				3723	static void md_sync_timer_fn(unsigned long data)
				3724	{
				3725	struct drbd_conf mdev = (struct drbd_conf ) data;
				3726
				3727	drbd_queue_work_front(&mdev->data.work, &mdev->md_sync_work);
				3728	}
				3729
				3730	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused)
				3731	{
				3732	dev_warn(DEV, "md_sync_timer expired! Worker calls drbd_md_sync().\n");
				3733	drbd_md_sync(mdev);
				3734
				3735	return 1;
				3736	}
				3737
				3738	#ifdef CONFIG_DRBD_FAULT_INJECTION
				3739	/* Fault insertion support including random number generator shamelessly
				3740	* stolen from kernel/rcutorture.c */
				3741	struct fault_random_state {
				3742	unsigned long state;
				3743	unsigned long count;
				3744	};
				3745
				3746	#define FAULT_RANDOM_MULT 39916801 /* prime */
				3747	#define FAULT_RANDOM_ADD 479001701 /* prime */
				3748	#define FAULT_RANDOM_REFRESH 10000
				3749
				3750	/*
				3751	* Crude but fast random-number generator. Uses a linear congruential
				3752	* generator, with occasional help from get_random_bytes().
				3753	*/
				3754	static unsigned long
				3755	_drbd_fault_random(struct fault_random_state *rsp)
				3756	{
				3757	long refresh;
				3758
Roel Kluin	49829ea	2009-12-15 22:55:44 +0100	[diff] [blame]	3759	if (!rsp->count--) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3760	get_random_bytes(&refresh, sizeof(refresh));
				3761	rsp->state += refresh;
				3762	rsp->count = FAULT_RANDOM_REFRESH;
				3763	}
				3764	rsp->state = rsp->state * FAULT_RANDOM_MULT + FAULT_RANDOM_ADD;
				3765	return swahw32(rsp->state);
				3766	}
				3767
				3768	static char *
				3769	_drbd_fault_str(unsigned int type) {
				3770	static char *_faults[] = {
				3771	[DRBD_FAULT_MD_WR] = "Meta-data write",
				3772	[DRBD_FAULT_MD_RD] = "Meta-data read",
				3773	[DRBD_FAULT_RS_WR] = "Resync write",
				3774	[DRBD_FAULT_RS_RD] = "Resync read",
				3775	[DRBD_FAULT_DT_WR] = "Data write",
				3776	[DRBD_FAULT_DT_RD] = "Data read",
				3777	[DRBD_FAULT_DT_RA] = "Data read ahead",
				3778	[DRBD_FAULT_BM_ALLOC] = "BM allocation",
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	3779	[DRBD_FAULT_AL_EE] = "EE allocation",
				3780	[DRBD_FAULT_RECEIVE] = "receive data corruption",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3781	};
				3782
				3783	return (type < DRBD_FAULT_MAX) ? _faults[type] : "Unknown";
				3784	}
				3785
				3786	unsigned int
				3787	_drbd_insert_fault(struct drbd_conf *mdev, unsigned int type)
				3788	{
				3789	static struct fault_random_state rrs = {0, 0};
				3790
				3791	unsigned int ret = (
				3792	(fault_devs == 0 \|\|
				3793	((1 << mdev_to_minor(mdev)) & fault_devs) != 0) &&
				3794	(((_drbd_fault_random(&rrs) % 100) + 1) <= fault_rate));
				3795
				3796	if (ret) {
				3797	fault_count++;
				3798
Lars Ellenberg	7383506	2010-05-27 11:51:56 +0200	[diff] [blame]	3799	if (__ratelimit(&drbd_ratelimit_state))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3800	dev_warn(DEV, "***Simulating %s failure\n",
				3801	_drbd_fault_str(type));
				3802	}
				3803
				3804	return ret;
				3805	}
				3806	#endif
				3807
				3808	const char *drbd_buildtag(void)
				3809	{
				3810	/* DRBD built from external sources has here a reference to the
				3811	git hash of the source code. */
				3812
				3813	static char buildtag[38] = "\0uilt-in";
				3814
				3815	if (buildtag[0] == 0) {
				3816	#ifdef CONFIG_MODULES
				3817	if (THIS_MODULE != NULL)
				3818	sprintf(buildtag, "srcversion: %-24s", THIS_MODULE->srcversion);
				3819	else
				3820	#endif
				3821	buildtag[0] = 'b';
				3822	}
				3823
				3824	return buildtag;
				3825	}
				3826
				3827	module_init(drbd_init)
				3828	module_exit(drbd_cleanup)
				3829
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3830	EXPORT_SYMBOL(drbd_conn_str);
				3831	EXPORT_SYMBOL(drbd_role_str);
				3832	EXPORT_SYMBOL(drbd_disk_str);
				3833	EXPORT_SYMBOL(drbd_set_st_err_str);