Blame - drivers/block/drbd/drbd_main.c - kernel/msm-4.19

blob: 9fe9bdd9e33d7c0f1bfa32e5fcc7c85e595de93b [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	Thanks to Carter Burden, Bart Grantham and Gennadiy Nerubayev
				11	from Logicworks, Inc. for making SDP replication support possible.
				12
				13	drbd is free software; you can redistribute it and/or modify
				14	it under the terms of the GNU General Public License as published by
				15	the Free Software Foundation; either version 2, or (at your option)
				16	any later version.
				17
				18	drbd is distributed in the hope that it will be useful,
				19	but WITHOUT ANY WARRANTY; without even the implied warranty of
				20	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				21	GNU General Public License for more details.
				22
				23	You should have received a copy of the GNU General Public License
				24	along with drbd; see the file COPYING. If not, write to
				25	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				26
				27	*/
				28
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	30	#include <linux/drbd.h>
				31	#include <asm/uaccess.h>
				32	#include <asm/types.h>
				33	#include <net/sock.h>
				34	#include <linux/ctype.h>
				35	#include <linux/smp_lock.h>
				36	#include <linux/fs.h>
				37	#include <linux/file.h>
				38	#include <linux/proc_fs.h>
				39	#include <linux/init.h>
				40	#include <linux/mm.h>
				41	#include <linux/memcontrol.h>
				42	#include <linux/mm_inline.h>
				43	#include <linux/slab.h>
				44	#include <linux/random.h>
				45	#include <linux/reboot.h>
				46	#include <linux/notifier.h>
				47	#include <linux/kthread.h>
				48
				49	#define __KERNEL_SYSCALLS__
				50	#include <linux/unistd.h>
				51	#include <linux/vmalloc.h>
				52
				53	#include <linux/drbd_limits.h>
				54	#include "drbd_int.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	55	#include "drbd_req.h" /* only for _req_mod in tl_release and tl_clear */
				56
				57	#include "drbd_vli.h"
				58
				59	struct after_state_chg_work {
				60	struct drbd_work w;
				61	union drbd_state os;
				62	union drbd_state ns;
				63	enum chg_state_flags flags;
				64	struct completion *done;
				65	};
				66
				67	int drbdd_init(struct drbd_thread *);
				68	int drbd_worker(struct drbd_thread *);
				69	int drbd_asender(struct drbd_thread *);
				70
				71	int drbd_init(void);
				72	static int drbd_open(struct block_device *bdev, fmode_t mode);
				73	static int drbd_release(struct gendisk *gd, fmode_t mode);
				74	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused);
				75	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				76	union drbd_state ns, enum chg_state_flags flags);
				77	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused);
				78	static void md_sync_timer_fn(unsigned long data);
				79	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused);
				80
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	81	MODULE_AUTHOR("Philipp Reisner <phil@linbit.com>, "
				82	"Lars Ellenberg <lars@linbit.com>");
				83	MODULE_DESCRIPTION("drbd - Distributed Replicated Block Device v" REL_VERSION);
				84	MODULE_VERSION(REL_VERSION);
				85	MODULE_LICENSE("GPL");
				86	MODULE_PARM_DESC(minor_count, "Maximum number of drbd devices (1-255)");
				87	MODULE_ALIAS_BLOCKDEV_MAJOR(DRBD_MAJOR);
				88
				89	#include <linux/moduleparam.h>
				90	/* allow_open_on_secondary */
				91	MODULE_PARM_DESC(allow_oos, "DONT USE!");
				92	/* thanks to these macros, if compiled into the kernel (not-module),
				93	* this becomes the boot parameter drbd.minor_count */
				94	module_param(minor_count, uint, 0444);
				95	module_param(disable_sendpage, bool, 0644);
				96	module_param(allow_oos, bool, 0);
				97	module_param(cn_idx, uint, 0444);
				98	module_param(proc_details, int, 0644);
				99
				100	#ifdef CONFIG_DRBD_FAULT_INJECTION
				101	int enable_faults;
				102	int fault_rate;
				103	static int fault_count;
				104	int fault_devs;
				105	/* bitmap of enabled faults */
				106	module_param(enable_faults, int, 0664);
				107	/* fault rate % value - applies to all enabled faults */
				108	module_param(fault_rate, int, 0664);
				109	/* count of faults inserted */
				110	module_param(fault_count, int, 0664);
				111	/* bitmap of devices to insert faults on */
				112	module_param(fault_devs, int, 0644);
				113	#endif
				114
				115	/* module parameter, defined */
				116	unsigned int minor_count = 32;
				117	int disable_sendpage;
				118	int allow_oos;
				119	unsigned int cn_idx = CN_IDX_DRBD;
				120	int proc_details; /* Detail level in proc drbd*/
				121
				122	/* Module parameter for setting the user mode helper program
				123	* to run. Default is /sbin/drbdadm */
				124	char usermode_helper[80] = "/sbin/drbdadm";
				125
				126	module_param_string(usermode_helper, usermode_helper, sizeof(usermode_helper), 0644);
				127
				128	/* in 2.6.x, our device mapping and config info contains our virtual gendisks
				129	* as member "struct gendisk *vdisk;"
				130	*/
				131	struct drbd_conf **minor_table;
				132
				133	struct kmem_cache *drbd_request_cache;
				134	struct kmem_cache drbd_ee_cache; / epoch entries */
				135	struct kmem_cache drbd_bm_ext_cache; / bitmap extents */
				136	struct kmem_cache drbd_al_ext_cache; / activity log extents */
				137	mempool_t *drbd_request_mempool;
				138	mempool_t *drbd_ee_mempool;
				139
				140	/* I do not use a standard mempool, because:
				141	1) I want to hand out the pre-allocated objects first.
				142	2) I want to be able to interrupt sleeping allocation with a signal.
				143	Note: This is a single linked list, the next pointer is the private
				144	member of struct page.
				145	*/
				146	struct page *drbd_pp_pool;
				147	spinlock_t drbd_pp_lock;
				148	int drbd_pp_vacant;
				149	wait_queue_head_t drbd_pp_wait;
				150
				151	DEFINE_RATELIMIT_STATE(drbd_ratelimit_state, 5 * HZ, 5);
				152
Emese Revfy	7d4e9d0	2009-12-14 00:59:30 +0100	[diff] [blame]	153	static const struct block_device_operations drbd_ops = {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	154	.owner = THIS_MODULE,
				155	.open = drbd_open,
				156	.release = drbd_release,
				157	};
				158
				159	#define ARRY_SIZE(A) (sizeof(A)/sizeof(A[0]))
				160
				161	#ifdef __CHECKER__
				162	/* When checking with sparse, and this is an inline function, sparse will
				163	give tons of false positives. When this is a real functions sparse works.
				164	*/
				165	int _get_ldev_if_state(struct drbd_conf *mdev, enum drbd_disk_state mins)
				166	{
				167	int io_allowed;
				168
				169	atomic_inc(&mdev->local_cnt);
				170	io_allowed = (mdev->state.disk >= mins);
				171	if (!io_allowed) {
				172	if (atomic_dec_and_test(&mdev->local_cnt))
				173	wake_up(&mdev->misc_wait);
				174	}
				175	return io_allowed;
				176	}
				177
				178	#endif
				179
				180	/**
				181	* DOC: The transfer log
				182	*
				183	* The transfer log is a single linked list of &struct drbd_tl_epoch objects.
				184	* mdev->newest_tle points to the head, mdev->oldest_tle points to the tail
				185	* of the list. There is always at least one &struct drbd_tl_epoch object.
				186	*
				187	* Each &struct drbd_tl_epoch has a circular double linked list of requests
				188	* attached.
				189	*/
				190	static int tl_init(struct drbd_conf *mdev)
				191	{
				192	struct drbd_tl_epoch *b;
				193
				194	/* during device minor initialization, we may well use GFP_KERNEL */
				195	b = kmalloc(sizeof(struct drbd_tl_epoch), GFP_KERNEL);
				196	if (!b)
				197	return 0;
				198	INIT_LIST_HEAD(&b->requests);
				199	INIT_LIST_HEAD(&b->w.list);
				200	b->next = NULL;
				201	b->br_number = 4711;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	202	b->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	b->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				204
				205	mdev->oldest_tle = b;
				206	mdev->newest_tle = b;
				207	INIT_LIST_HEAD(&mdev->out_of_sequence_requests);
				208
				209	mdev->tl_hash = NULL;
				210	mdev->tl_hash_s = 0;
				211
				212	return 1;
				213	}
				214
				215	static void tl_cleanup(struct drbd_conf *mdev)
				216	{
				217	D_ASSERT(mdev->oldest_tle == mdev->newest_tle);
				218	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				219	kfree(mdev->oldest_tle);
				220	mdev->oldest_tle = NULL;
				221	kfree(mdev->unused_spare_tle);
				222	mdev->unused_spare_tle = NULL;
				223	kfree(mdev->tl_hash);
				224	mdev->tl_hash = NULL;
				225	mdev->tl_hash_s = 0;
				226	}
				227
				228	/**
				229	* _tl_add_barrier() - Adds a barrier to the transfer log
				230	* @mdev: DRBD device.
				231	* @new: Barrier to be added before the current head of the TL.
				232	*
				233	* The caller must hold the req_lock.
				234	*/
				235	void _tl_add_barrier(struct drbd_conf mdev, struct drbd_tl_epoch new)
				236	{
				237	struct drbd_tl_epoch *newest_before;
				238
				239	INIT_LIST_HEAD(&new->requests);
				240	INIT_LIST_HEAD(&new->w.list);
				241	new->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				242	new->next = NULL;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	243	new->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	244
				245	newest_before = mdev->newest_tle;
				246	/* never send a barrier number == 0, because that is special-cased
				247	* when using TCQ for our write ordering code */
				248	new->br_number = (newest_before->br_number+1) ?: 1;
				249	if (mdev->newest_tle != new) {
				250	mdev->newest_tle->next = new;
				251	mdev->newest_tle = new;
				252	}
				253	}
				254
				255	/**
				256	* tl_release() - Free or recycle the oldest &struct drbd_tl_epoch object of the TL
				257	* @mdev: DRBD device.
				258	* @barrier_nr: Expected identifier of the DRBD write barrier packet.
				259	* @set_size: Expected number of requests before that barrier.
				260	*
				261	* In case the passed barrier_nr or set_size does not match the oldest
				262	* &struct drbd_tl_epoch objects this function will cause a termination
				263	* of the connection.
				264	*/
				265	void tl_release(struct drbd_conf *mdev, unsigned int barrier_nr,
				266	unsigned int set_size)
				267	{
				268	struct drbd_tl_epoch b, nob; /* next old barrier */
				269	struct list_head le, tle;
				270	struct drbd_request *r;
				271
				272	spin_lock_irq(&mdev->req_lock);
				273
				274	b = mdev->oldest_tle;
				275
				276	/* first some paranoia code */
				277	if (b == NULL) {
				278	dev_err(DEV, "BAD! BarrierAck #%u received, but no epoch in tl!?\n",
				279	barrier_nr);
				280	goto bail;
				281	}
				282	if (b->br_number != barrier_nr) {
				283	dev_err(DEV, "BAD! BarrierAck #%u received, expected #%u!\n",
				284	barrier_nr, b->br_number);
				285	goto bail;
				286	}
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	287	if (b->n_writes != set_size) {
				288	dev_err(DEV, "BAD! BarrierAck #%u received with n_writes=%u, expected n_writes=%u!\n",
				289	barrier_nr, set_size, b->n_writes);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	290	goto bail;
				291	}
				292
				293	/* Clean up list of requests processed during current epoch */
				294	list_for_each_safe(le, tle, &b->requests) {
				295	r = list_entry(le, struct drbd_request, tl_requests);
				296	_req_mod(r, barrier_acked);
				297	}
				298	/* There could be requests on the list waiting for completion
				299	of the write to the local disk. To avoid corruptions of
				300	slab's data structures we have to remove the lists head.
				301
				302	Also there could have been a barrier ack out of sequence, overtaking
				303	the write acks - which would be a bug and violating write ordering.
				304	To not deadlock in case we lose connection while such requests are
				305	still pending, we need some way to find them for the
				306	_req_mode(connection_lost_while_pending).
				307
				308	These have been list_move'd to the out_of_sequence_requests list in
				309	_req_mod(, barrier_acked) above.
				310	*/
				311	list_del_init(&b->requests);
				312
				313	nob = b->next;
				314	if (test_and_clear_bit(CREATE_BARRIER, &mdev->flags)) {
				315	_tl_add_barrier(mdev, b);
				316	if (nob)
				317	mdev->oldest_tle = nob;
				318	/* if nob == NULL b was the only barrier, and becomes the new
				319	barrier. Therefore mdev->oldest_tle points already to b */
				320	} else {
				321	D_ASSERT(nob != NULL);
				322	mdev->oldest_tle = nob;
				323	kfree(b);
				324	}
				325
				326	spin_unlock_irq(&mdev->req_lock);
				327	dec_ap_pending(mdev);
				328
				329	return;
				330
				331	bail:
				332	spin_unlock_irq(&mdev->req_lock);
				333	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				334	}
				335
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	336	/**
				337	* _tl_restart() - Walks the transfer log, and applies an action to all requests
				338	* @mdev: DRBD device.
				339	* @what: The action/event to perform with all request objects
				340	*
				341	* @what might be one of connection_lost_while_pending, resend, fail_frozen_disk_io,
				342	* restart_frozen_disk_io.
				343	*/
				344	static void _tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				345	{
				346	struct drbd_tl_epoch b, tmp, **pn;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	347	struct list_head le, tle, carry_reads;
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	348	struct drbd_request *req;
				349	int rv, n_writes, n_reads;
				350
				351	b = mdev->oldest_tle;
				352	pn = &mdev->oldest_tle;
				353	while (b) {
				354	n_writes = 0;
				355	n_reads = 0;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	356	INIT_LIST_HEAD(&carry_reads);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	357	list_for_each_safe(le, tle, &b->requests) {
				358	req = list_entry(le, struct drbd_request, tl_requests);
				359	rv = _req_mod(req, what);
				360
				361	n_writes += (rv & MR_WRITE) >> MR_WRITE_SHIFT;
				362	n_reads += (rv & MR_READ) >> MR_READ_SHIFT;
				363	}
				364	tmp = b->next;
				365
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	366	if (n_writes) {
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	367	if (what == resend) {
				368	b->n_writes = n_writes;
				369	if (b->w.cb == NULL) {
				370	b->w.cb = w_send_barrier;
				371	inc_ap_pending(mdev);
				372	set_bit(CREATE_BARRIER, &mdev->flags);
				373	}
				374
				375	drbd_queue_work(&mdev->data.work, &b->w);
				376	}
				377	pn = &b->next;
				378	} else {
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	379	if (n_reads)
				380	list_add(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	381	/* there could still be requests on that ring list,
				382	* in case local io is still pending */
				383	list_del(&b->requests);
				384
				385	/* dec_ap_pending corresponding to queue_barrier.
				386	* the newest barrier may not have been queued yet,
				387	* in which case w.cb is still NULL. */
				388	if (b->w.cb != NULL)
				389	dec_ap_pending(mdev);
				390
				391	if (b == mdev->newest_tle) {
				392	/* recycle, but reinit! */
				393	D_ASSERT(tmp == NULL);
				394	INIT_LIST_HEAD(&b->requests);
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	395	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	396	INIT_LIST_HEAD(&b->w.list);
				397	b->w.cb = NULL;
				398	b->br_number = net_random();
				399	b->n_writes = 0;
				400
				401	*pn = b;
				402	break;
				403	}
				404	*pn = tmp;
				405	kfree(b);
				406	}
				407	b = tmp;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	408	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	409	}
				410	}
				411
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	412
				413	/**
				414	* tl_clear() - Clears all requests and &struct drbd_tl_epoch objects out of the TL
				415	* @mdev: DRBD device.
				416	*
				417	* This is called after the connection to the peer was lost. The storage covered
				418	* by the requests on the transfer gets marked as our of sync. Called from the
				419	* receiver thread and the worker thread.
				420	*/
				421	void tl_clear(struct drbd_conf *mdev)
				422	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	423	struct list_head le, tle;
				424	struct drbd_request *r;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	425
				426	spin_lock_irq(&mdev->req_lock);
				427
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	428	_tl_restart(mdev, connection_lost_while_pending);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	429
				430	/* we expect this list to be empty. */
				431	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				432
				433	/* but just in case, clean it up anyways! */
				434	list_for_each_safe(le, tle, &mdev->out_of_sequence_requests) {
				435	r = list_entry(le, struct drbd_request, tl_requests);
				436	/* It would be nice to complete outside of spinlock.
				437	* But this is easier for now. */
				438	_req_mod(r, connection_lost_while_pending);
				439	}
				440
				441	/* ensure bit indicating barrier is required is clear */
				442	clear_bit(CREATE_BARRIER, &mdev->flags);
				443
Philipp Reisner	288f422	2010-05-27 15:07:43 +0200	[diff] [blame]	444	memset(mdev->app_reads_hash, 0, APP_R_HSIZEsizeof(void ));
				445
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	446	spin_unlock_irq(&mdev->req_lock);
				447	}
				448
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	449	void tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				450	{
				451	spin_lock_irq(&mdev->req_lock);
				452	_tl_restart(mdev, what);
				453	spin_unlock_irq(&mdev->req_lock);
				454	}
				455
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	456	/**
				457	* cl_wide_st_chg() - TRUE if the state change is a cluster wide one
				458	* @mdev: DRBD device.
				459	* @os: old (current) state.
				460	* @ns: new (wanted) state.
				461	*/
				462	static int cl_wide_st_chg(struct drbd_conf *mdev,
				463	union drbd_state os, union drbd_state ns)
				464	{
				465	return (os.conn >= C_CONNECTED && ns.conn >= C_CONNECTED &&
				466	((os.role != R_PRIMARY && ns.role == R_PRIMARY) \|\|
				467	(os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				468	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S) \|\|
				469	(os.disk != D_DISKLESS && ns.disk == D_DISKLESS))) \|\|
				470	(os.conn >= C_CONNECTED && ns.conn == C_DISCONNECTING) \|\|
				471	(os.conn == C_CONNECTED && ns.conn == C_VERIFY_S);
				472	}
				473
				474	int drbd_change_state(struct drbd_conf *mdev, enum chg_state_flags f,
				475	union drbd_state mask, union drbd_state val)
				476	{
				477	unsigned long flags;
				478	union drbd_state os, ns;
				479	int rv;
				480
				481	spin_lock_irqsave(&mdev->req_lock, flags);
				482	os = mdev->state;
				483	ns.i = (os.i & ~mask.i) \| val.i;
				484	rv = _drbd_set_state(mdev, ns, f, NULL);
				485	ns = mdev->state;
				486	spin_unlock_irqrestore(&mdev->req_lock, flags);
				487
				488	return rv;
				489	}
				490
				491	/**
				492	* drbd_force_state() - Impose a change which happens outside our control on our state
				493	* @mdev: DRBD device.
				494	* @mask: mask of state bits to change.
				495	* @val: value of new state bits.
				496	*/
				497	void drbd_force_state(struct drbd_conf *mdev,
				498	union drbd_state mask, union drbd_state val)
				499	{
				500	drbd_change_state(mdev, CS_HARD, mask, val);
				501	}
				502
				503	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns);
				504	static int is_valid_state_transition(struct drbd_conf *,
				505	union drbd_state, union drbd_state);
				506	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
				507	union drbd_state ns, int *warn_sync_abort);
				508	int drbd_send_state_req(struct drbd_conf *,
				509	union drbd_state, union drbd_state);
				510
				511	static enum drbd_state_ret_codes _req_st_cond(struct drbd_conf *mdev,
				512	union drbd_state mask, union drbd_state val)
				513	{
				514	union drbd_state os, ns;
				515	unsigned long flags;
				516	int rv;
				517
				518	if (test_and_clear_bit(CL_ST_CHG_SUCCESS, &mdev->flags))
				519	return SS_CW_SUCCESS;
				520
				521	if (test_and_clear_bit(CL_ST_CHG_FAIL, &mdev->flags))
				522	return SS_CW_FAILED_BY_PEER;
				523
				524	rv = 0;
				525	spin_lock_irqsave(&mdev->req_lock, flags);
				526	os = mdev->state;
				527	ns.i = (os.i & ~mask.i) \| val.i;
				528	ns = sanitize_state(mdev, os, ns, NULL);
				529
				530	if (!cl_wide_st_chg(mdev, os, ns))
				531	rv = SS_CW_NO_NEED;
				532	if (!rv) {
				533	rv = is_valid_state(mdev, ns);
				534	if (rv == SS_SUCCESS) {
				535	rv = is_valid_state_transition(mdev, ns, os);
				536	if (rv == SS_SUCCESS)
				537	rv = 0; /* cont waiting, otherwise fail. */
				538	}
				539	}
				540	spin_unlock_irqrestore(&mdev->req_lock, flags);
				541
				542	return rv;
				543	}
				544
				545	/**
				546	* drbd_req_state() - Perform an eventually cluster wide state change
				547	* @mdev: DRBD device.
				548	* @mask: mask of state bits to change.
				549	* @val: value of new state bits.
				550	* @f: flags
				551	*
				552	* Should not be called directly, use drbd_request_state() or
				553	* _drbd_request_state().
				554	*/
				555	static int drbd_req_state(struct drbd_conf *mdev,
				556	union drbd_state mask, union drbd_state val,
				557	enum chg_state_flags f)
				558	{
				559	struct completion done;
				560	unsigned long flags;
				561	union drbd_state os, ns;
				562	int rv;
				563
				564	init_completion(&done);
				565
				566	if (f & CS_SERIALIZE)
				567	mutex_lock(&mdev->state_mutex);
				568
				569	spin_lock_irqsave(&mdev->req_lock, flags);
				570	os = mdev->state;
				571	ns.i = (os.i & ~mask.i) \| val.i;
				572	ns = sanitize_state(mdev, os, ns, NULL);
				573
				574	if (cl_wide_st_chg(mdev, os, ns)) {
				575	rv = is_valid_state(mdev, ns);
				576	if (rv == SS_SUCCESS)
				577	rv = is_valid_state_transition(mdev, ns, os);
				578	spin_unlock_irqrestore(&mdev->req_lock, flags);
				579
				580	if (rv < SS_SUCCESS) {
				581	if (f & CS_VERBOSE)
				582	print_st_err(mdev, os, ns, rv);
				583	goto abort;
				584	}
				585
				586	drbd_state_lock(mdev);
				587	if (!drbd_send_state_req(mdev, mask, val)) {
				588	drbd_state_unlock(mdev);
				589	rv = SS_CW_FAILED_BY_PEER;
				590	if (f & CS_VERBOSE)
				591	print_st_err(mdev, os, ns, rv);
				592	goto abort;
				593	}
				594
				595	wait_event(mdev->state_wait,
				596	(rv = _req_st_cond(mdev, mask, val)));
				597
				598	if (rv < SS_SUCCESS) {
				599	drbd_state_unlock(mdev);
				600	if (f & CS_VERBOSE)
				601	print_st_err(mdev, os, ns, rv);
				602	goto abort;
				603	}
				604	spin_lock_irqsave(&mdev->req_lock, flags);
				605	os = mdev->state;
				606	ns.i = (os.i & ~mask.i) \| val.i;
				607	rv = _drbd_set_state(mdev, ns, f, &done);
				608	drbd_state_unlock(mdev);
				609	} else {
				610	rv = _drbd_set_state(mdev, ns, f, &done);
				611	}
				612
				613	spin_unlock_irqrestore(&mdev->req_lock, flags);
				614
				615	if (f & CS_WAIT_COMPLETE && rv == SS_SUCCESS) {
				616	D_ASSERT(current != mdev->worker.task);
				617	wait_for_completion(&done);
				618	}
				619
				620	abort:
				621	if (f & CS_SERIALIZE)
				622	mutex_unlock(&mdev->state_mutex);
				623
				624	return rv;
				625	}
				626
				627	/**
				628	* _drbd_request_state() - Request a state change (with flags)
				629	* @mdev: DRBD device.
				630	* @mask: mask of state bits to change.
				631	* @val: value of new state bits.
				632	* @f: flags
				633	*
				634	* Cousin of drbd_request_state(), useful with the CS_WAIT_COMPLETE
				635	* flag, or when logging of failed state change requests is not desired.
				636	*/
				637	int _drbd_request_state(struct drbd_conf *mdev, union drbd_state mask,
				638	union drbd_state val, enum chg_state_flags f)
				639	{
				640	int rv;
				641
				642	wait_event(mdev->state_wait,
				643	(rv = drbd_req_state(mdev, mask, val, f)) != SS_IN_TRANSIENT_STATE);
				644
				645	return rv;
				646	}
				647
				648	static void print_st(struct drbd_conf mdev, char name, union drbd_state ns)
				649	{
				650	dev_err(DEV, " %s = { cs:%s ro:%s/%s ds:%s/%s %c%c%c%c }\n",
				651	name,
				652	drbd_conn_str(ns.conn),
				653	drbd_role_str(ns.role),
				654	drbd_role_str(ns.peer),
				655	drbd_disk_str(ns.disk),
				656	drbd_disk_str(ns.pdsk),
				657	ns.susp ? 's' : 'r',
				658	ns.aftr_isp ? 'a' : '-',
				659	ns.peer_isp ? 'p' : '-',
				660	ns.user_isp ? 'u' : '-'
				661	);
				662	}
				663
				664	void print_st_err(struct drbd_conf *mdev,
				665	union drbd_state os, union drbd_state ns, int err)
				666	{
				667	if (err == SS_IN_TRANSIENT_STATE)
				668	return;
				669	dev_err(DEV, "State change failed: %s\n", drbd_set_st_err_str(err));
				670	print_st(mdev, " state", os);
				671	print_st(mdev, "wanted", ns);
				672	}
				673
				674
				675	#define drbd_peer_str drbd_role_str
				676	#define drbd_pdsk_str drbd_disk_str
				677
				678	#define drbd_susp_str(A) ((A) ? "1" : "0")
				679	#define drbd_aftr_isp_str(A) ((A) ? "1" : "0")
				680	#define drbd_peer_isp_str(A) ((A) ? "1" : "0")
				681	#define drbd_user_isp_str(A) ((A) ? "1" : "0")
				682
				683	#define PSC(A) \
				684	({ if (ns.A != os.A) { \
				685	pbp += sprintf(pbp, #A "( %s -> %s ) ", \
				686	drbd_##A##_str(os.A), \
				687	drbd_##A##_str(ns.A)); \
				688	} })
				689
				690	/**
				691	* is_valid_state() - Returns an SS_ error code if ns is not valid
				692	* @mdev: DRBD device.
				693	* @ns: State to consider.
				694	*/
				695	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns)
				696	{
				697	/* See drbd_state_sw_errors in drbd_strings.c */
				698
				699	enum drbd_fencing_p fp;
				700	int rv = SS_SUCCESS;
				701
				702	fp = FP_DONT_CARE;
				703	if (get_ldev(mdev)) {
				704	fp = mdev->ldev->dc.fencing;
				705	put_ldev(mdev);
				706	}
				707
				708	if (get_net_conf(mdev)) {
				709	if (!mdev->net_conf->two_primaries &&
				710	ns.role == R_PRIMARY && ns.peer == R_PRIMARY)
				711	rv = SS_TWO_PRIMARIES;
				712	put_net_conf(mdev);
				713	}
				714
				715	if (rv <= 0)
				716	/* already found a reason to abort */;
				717	else if (ns.role == R_SECONDARY && mdev->open_cnt)
				718	rv = SS_DEVICE_IN_USE;
				719
				720	else if (ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.disk < D_UP_TO_DATE)
				721	rv = SS_NO_UP_TO_DATE_DISK;
				722
				723	else if (fp >= FP_RESOURCE &&
				724	ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk >= D_UNKNOWN)
				725	rv = SS_PRIMARY_NOP;
				726
				727	else if (ns.role == R_PRIMARY && ns.disk <= D_INCONSISTENT && ns.pdsk <= D_INCONSISTENT)
				728	rv = SS_NO_UP_TO_DATE_DISK;
				729
				730	else if (ns.conn > C_CONNECTED && ns.disk < D_INCONSISTENT)
				731	rv = SS_NO_LOCAL_DISK;
				732
				733	else if (ns.conn > C_CONNECTED && ns.pdsk < D_INCONSISTENT)
				734	rv = SS_NO_REMOTE_DISK;
				735
Lars Ellenberg	8d4ce82	2010-04-01 16:59:32 +0200	[diff] [blame]	736	else if (ns.conn > C_CONNECTED && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE)
				737	rv = SS_NO_UP_TO_DATE_DISK;
				738
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	739	else if ((ns.conn == C_CONNECTED \|\|
				740	ns.conn == C_WF_BITMAP_S \|\|
				741	ns.conn == C_SYNC_SOURCE \|\|
				742	ns.conn == C_PAUSED_SYNC_S) &&
				743	ns.disk == D_OUTDATED)
				744	rv = SS_CONNECTED_OUTDATES;
				745
				746	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				747	(mdev->sync_conf.verify_alg[0] == 0))
				748	rv = SS_NO_VERIFY_ALG;
				749
				750	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				751	mdev->agreed_pro_version < 88)
				752	rv = SS_NOT_SUPPORTED;
				753
				754	return rv;
				755	}
				756
				757	/**
				758	* is_valid_state_transition() - Returns an SS_ error code if the state transition is not possible
				759	* @mdev: DRBD device.
				760	* @ns: new state.
				761	* @os: old state.
				762	*/
				763	static int is_valid_state_transition(struct drbd_conf *mdev,
				764	union drbd_state ns, union drbd_state os)
				765	{
				766	int rv = SS_SUCCESS;
				767
				768	if ((ns.conn == C_STARTING_SYNC_T \|\| ns.conn == C_STARTING_SYNC_S) &&
				769	os.conn > C_CONNECTED)
				770	rv = SS_RESYNC_RUNNING;
				771
				772	if (ns.conn == C_DISCONNECTING && os.conn == C_STANDALONE)
				773	rv = SS_ALREADY_STANDALONE;
				774
				775	if (ns.disk > D_ATTACHING && os.disk == D_DISKLESS)
				776	rv = SS_IS_DISKLESS;
				777
				778	if (ns.conn == C_WF_CONNECTION && os.conn < C_UNCONNECTED)
				779	rv = SS_NO_NET_CONFIG;
				780
				781	if (ns.disk == D_OUTDATED && os.disk < D_OUTDATED && os.disk != D_ATTACHING)
				782	rv = SS_LOWER_THAN_OUTDATED;
				783
				784	if (ns.conn == C_DISCONNECTING && os.conn == C_UNCONNECTED)
				785	rv = SS_IN_TRANSIENT_STATE;
				786
				787	if (ns.conn == os.conn && ns.conn == C_WF_REPORT_PARAMS)
				788	rv = SS_IN_TRANSIENT_STATE;
				789
				790	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) && os.conn < C_CONNECTED)
				791	rv = SS_NEED_CONNECTION;
				792
				793	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				794	ns.conn != os.conn && os.conn > C_CONNECTED)
				795	rv = SS_RESYNC_RUNNING;
				796
				797	if ((ns.conn == C_STARTING_SYNC_S \|\| ns.conn == C_STARTING_SYNC_T) &&
				798	os.conn < C_CONNECTED)
				799	rv = SS_NEED_CONNECTION;
				800
				801	return rv;
				802	}
				803
				804	/**
				805	* sanitize_state() - Resolves implicitly necessary additional changes to a state transition
				806	* @mdev: DRBD device.
				807	* @os: old state.
				808	* @ns: new state.
				809	* @warn_sync_abort:
				810	*
				811	* When we loose connection, we have to set the state of the peers disk (pdsk)
				812	* to D_UNKNOWN. This rule and many more along those lines are in this function.
				813	*/
				814	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
				815	union drbd_state ns, int *warn_sync_abort)
				816	{
				817	enum drbd_fencing_p fp;
				818
				819	fp = FP_DONT_CARE;
				820	if (get_ldev(mdev)) {
				821	fp = mdev->ldev->dc.fencing;
				822	put_ldev(mdev);
				823	}
				824
				825	/* Disallow Network errors to configure a device's network part */
				826	if ((ns.conn >= C_TIMEOUT && ns.conn <= C_TEAR_DOWN) &&
				827	os.conn <= C_DISCONNECTING)
				828	ns.conn = os.conn;
				829
				830	/* After a network error (+C_TEAR_DOWN) only C_UNCONNECTED or C_DISCONNECTING can follow */
				831	if (os.conn >= C_TIMEOUT && os.conn <= C_TEAR_DOWN &&
				832	ns.conn != C_UNCONNECTED && ns.conn != C_DISCONNECTING)
				833	ns.conn = os.conn;
				834
				835	/* After C_DISCONNECTING only C_STANDALONE may follow */
				836	if (os.conn == C_DISCONNECTING && ns.conn != C_STANDALONE)
				837	ns.conn = os.conn;
				838
				839	if (ns.conn < C_CONNECTED) {
				840	ns.peer_isp = 0;
				841	ns.peer = R_UNKNOWN;
				842	if (ns.pdsk > D_UNKNOWN \|\| ns.pdsk < D_INCONSISTENT)
				843	ns.pdsk = D_UNKNOWN;
				844	}
				845
				846	/* Clear the aftr_isp when becoming unconfigured */
				847	if (ns.conn == C_STANDALONE && ns.disk == D_DISKLESS && ns.role == R_SECONDARY)
				848	ns.aftr_isp = 0;
				849
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	850	/* Abort resync if a disk fails/detaches */
				851	if (os.conn > C_CONNECTED && ns.conn > C_CONNECTED &&
				852	(ns.disk <= D_FAILED \|\| ns.pdsk <= D_FAILED)) {
				853	if (warn_sync_abort)
				854	*warn_sync_abort = 1;
				855	ns.conn = C_CONNECTED;
				856	}
				857
				858	if (ns.conn >= C_CONNECTED &&
				859	((ns.disk == D_CONSISTENT \|\| ns.disk == D_OUTDATED) \|\|
				860	(ns.disk == D_NEGOTIATING && ns.conn == C_WF_BITMAP_T))) {
				861	switch (ns.conn) {
				862	case C_WF_BITMAP_T:
				863	case C_PAUSED_SYNC_T:
				864	ns.disk = D_OUTDATED;
				865	break;
				866	case C_CONNECTED:
				867	case C_WF_BITMAP_S:
				868	case C_SYNC_SOURCE:
				869	case C_PAUSED_SYNC_S:
				870	ns.disk = D_UP_TO_DATE;
				871	break;
				872	case C_SYNC_TARGET:
				873	ns.disk = D_INCONSISTENT;
				874	dev_warn(DEV, "Implicitly set disk state Inconsistent!\n");
				875	break;
				876	}
				877	if (os.disk == D_OUTDATED && ns.disk == D_UP_TO_DATE)
				878	dev_warn(DEV, "Implicitly set disk from Outdated to UpToDate\n");
				879	}
				880
				881	if (ns.conn >= C_CONNECTED &&
				882	(ns.pdsk == D_CONSISTENT \|\| ns.pdsk == D_OUTDATED)) {
				883	switch (ns.conn) {
				884	case C_CONNECTED:
				885	case C_WF_BITMAP_T:
				886	case C_PAUSED_SYNC_T:
				887	case C_SYNC_TARGET:
				888	ns.pdsk = D_UP_TO_DATE;
				889	break;
				890	case C_WF_BITMAP_S:
				891	case C_PAUSED_SYNC_S:
Lars Ellenberg	e0f8301	2010-04-01 15:13:19 +0200	[diff] [blame]	892	/* remap any consistent state to D_OUTDATED,
				893	* but disallow "upgrade" of not even consistent states.
				894	*/
				895	ns.pdsk =
				896	(D_DISKLESS < os.pdsk && os.pdsk < D_OUTDATED)
				897	? os.pdsk : D_OUTDATED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	898	break;
				899	case C_SYNC_SOURCE:
				900	ns.pdsk = D_INCONSISTENT;
				901	dev_warn(DEV, "Implicitly set pdsk Inconsistent!\n");
				902	break;
				903	}
				904	if (os.pdsk == D_OUTDATED && ns.pdsk == D_UP_TO_DATE)
				905	dev_warn(DEV, "Implicitly set pdsk from Outdated to UpToDate\n");
				906	}
				907
				908	/* Connection breaks down before we finished "Negotiating" */
				909	if (ns.conn < C_CONNECTED && ns.disk == D_NEGOTIATING &&
				910	get_ldev_if_state(mdev, D_NEGOTIATING)) {
				911	if (mdev->ed_uuid == mdev->ldev->md.uuid[UI_CURRENT]) {
				912	ns.disk = mdev->new_state_tmp.disk;
				913	ns.pdsk = mdev->new_state_tmp.pdsk;
				914	} else {
				915	dev_alert(DEV, "Connection lost while negotiating, no data!\n");
				916	ns.disk = D_DISKLESS;
				917	ns.pdsk = D_UNKNOWN;
				918	}
				919	put_ldev(mdev);
				920	}
				921
				922	if (fp == FP_STONITH &&
Philipp Reisner	0a49216	2009-10-21 13:08:29 +0200	[diff] [blame]	923	(ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk > D_OUTDATED) &&
				924	!(os.role == R_PRIMARY && os.conn < C_CONNECTED && os.pdsk > D_OUTDATED))
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	925	ns.susp = 1; /* Suspend IO while fence-peer handler runs (peer lost) */
				926
				927	if (mdev->sync_conf.on_no_data == OND_SUSPEND_IO &&
				928	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE) &&
				929	!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE))
				930	ns.susp = 1; /* Suspend IO while no data available (no accessible data available) */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	931
				932	if (ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp) {
				933	if (ns.conn == C_SYNC_SOURCE)
				934	ns.conn = C_PAUSED_SYNC_S;
				935	if (ns.conn == C_SYNC_TARGET)
				936	ns.conn = C_PAUSED_SYNC_T;
				937	} else {
				938	if (ns.conn == C_PAUSED_SYNC_S)
				939	ns.conn = C_SYNC_SOURCE;
				940	if (ns.conn == C_PAUSED_SYNC_T)
				941	ns.conn = C_SYNC_TARGET;
				942	}
				943
				944	return ns;
				945	}
				946
				947	/* helper for __drbd_set_state */
				948	static void set_ov_position(struct drbd_conf *mdev, enum drbd_conns cs)
				949	{
				950	if (cs == C_VERIFY_T) {
				951	/* starting online verify from an arbitrary position
				952	* does not fit well into the existing protocol.
				953	* on C_VERIFY_T, we initialize ov_left and friends
				954	* implicitly in receive_DataRequest once the
				955	* first P_OV_REQUEST is received */
				956	mdev->ov_start_sector = ~(sector_t)0;
				957	} else {
				958	unsigned long bit = BM_SECT_TO_BIT(mdev->ov_start_sector);
				959	if (bit >= mdev->rs_total)
				960	mdev->ov_start_sector =
				961	BM_BIT_TO_SECT(mdev->rs_total - 1);
				962	mdev->ov_position = mdev->ov_start_sector;
				963	}
				964	}
				965
				966	/**
				967	* __drbd_set_state() - Set a new DRBD state
				968	* @mdev: DRBD device.
				969	* @ns: new state.
				970	* @flags: Flags
				971	* @done: Optional completion, that will get completed after the after_state_ch() finished
				972	*
				973	* Caller needs to hold req_lock, and global_state_lock. Do not call directly.
				974	*/
				975	int __drbd_set_state(struct drbd_conf *mdev,
				976	union drbd_state ns, enum chg_state_flags flags,
				977	struct completion *done)
				978	{
				979	union drbd_state os;
				980	int rv = SS_SUCCESS;
				981	int warn_sync_abort = 0;
				982	struct after_state_chg_work *ascw;
				983
				984	os = mdev->state;
				985
				986	ns = sanitize_state(mdev, os, ns, &warn_sync_abort);
				987
				988	if (ns.i == os.i)
				989	return SS_NOTHING_TO_DO;
				990
				991	if (!(flags & CS_HARD)) {
				992	/* pre-state-change checks ; only look at ns */
				993	/* See drbd_state_sw_errors in drbd_strings.c */
				994
				995	rv = is_valid_state(mdev, ns);
				996	if (rv < SS_SUCCESS) {
				997	/* If the old state was illegal as well, then let
				998	this happen...*/
				999
Philipp Reisner	1616a25	2010-06-10 16:55:15 +0200	[diff] [blame]	1000	if (is_valid_state(mdev, os) == rv)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1001	rv = is_valid_state_transition(mdev, ns, os);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1002	} else
				1003	rv = is_valid_state_transition(mdev, ns, os);
				1004	}
				1005
				1006	if (rv < SS_SUCCESS) {
				1007	if (flags & CS_VERBOSE)
				1008	print_st_err(mdev, os, ns, rv);
				1009	return rv;
				1010	}
				1011
				1012	if (warn_sync_abort)
				1013	dev_warn(DEV, "Resync aborted.\n");
				1014
				1015	{
				1016	char *pbp, pb[300];
				1017	pbp = pb;
				1018	*pbp = 0;
				1019	PSC(role);
				1020	PSC(peer);
				1021	PSC(conn);
				1022	PSC(disk);
				1023	PSC(pdsk);
				1024	PSC(susp);
				1025	PSC(aftr_isp);
				1026	PSC(peer_isp);
				1027	PSC(user_isp);
				1028	dev_info(DEV, "%s\n", pb);
				1029	}
				1030
				1031	/* solve the race between becoming unconfigured,
				1032	* worker doing the cleanup, and
				1033	* admin reconfiguring us:
				1034	* on (re)configure, first set CONFIG_PENDING,
				1035	* then wait for a potentially exiting worker,
				1036	* start the worker, and schedule one no_op.
				1037	* then proceed with configuration.
				1038	*/
				1039	if (ns.disk == D_DISKLESS &&
				1040	ns.conn == C_STANDALONE &&
				1041	ns.role == R_SECONDARY &&
				1042	!test_and_set_bit(CONFIG_PENDING, &mdev->flags))
				1043	set_bit(DEVICE_DYING, &mdev->flags);
				1044
				1045	mdev->state.i = ns.i;
				1046	wake_up(&mdev->misc_wait);
				1047	wake_up(&mdev->state_wait);
				1048
				1049	/* post-state-change actions */
				1050	if (os.conn >= C_SYNC_SOURCE && ns.conn <= C_CONNECTED) {
				1051	set_bit(STOP_SYNC_TIMER, &mdev->flags);
				1052	mod_timer(&mdev->resync_timer, jiffies);
				1053	}
				1054
				1055	/* aborted verify run. log the last position */
				1056	if ((os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) &&
				1057	ns.conn < C_CONNECTED) {
				1058	mdev->ov_start_sector =
				1059	BM_BIT_TO_SECT(mdev->rs_total - mdev->ov_left);
				1060	dev_info(DEV, "Online Verify reached sector %llu\n",
				1061	(unsigned long long)mdev->ov_start_sector);
				1062	}
				1063
				1064	if ((os.conn == C_PAUSED_SYNC_T \|\| os.conn == C_PAUSED_SYNC_S) &&
				1065	(ns.conn == C_SYNC_TARGET \|\| ns.conn == C_SYNC_SOURCE)) {
				1066	dev_info(DEV, "Syncer continues.\n");
				1067	mdev->rs_paused += (long)jiffies-(long)mdev->rs_mark_time;
				1068	if (ns.conn == C_SYNC_TARGET) {
				1069	if (!test_and_clear_bit(STOP_SYNC_TIMER, &mdev->flags))
				1070	mod_timer(&mdev->resync_timer, jiffies);
				1071	/* This if (!test_bit) is only needed for the case
				1072	that a device that has ceased to used its timer,
				1073	i.e. it is already in drbd_resync_finished() gets
				1074	paused and resumed. */
				1075	}
				1076	}
				1077
				1078	if ((os.conn == C_SYNC_TARGET \|\| os.conn == C_SYNC_SOURCE) &&
				1079	(ns.conn == C_PAUSED_SYNC_T \|\| ns.conn == C_PAUSED_SYNC_S)) {
				1080	dev_info(DEV, "Resync suspended\n");
				1081	mdev->rs_mark_time = jiffies;
				1082	if (ns.conn == C_PAUSED_SYNC_T)
				1083	set_bit(STOP_SYNC_TIMER, &mdev->flags);
				1084	}
				1085
				1086	if (os.conn == C_CONNECTED &&
				1087	(ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T)) {
				1088	mdev->ov_position = 0;
				1089	mdev->rs_total =
				1090	mdev->rs_mark_left = drbd_bm_bits(mdev);
				1091	if (mdev->agreed_pro_version >= 90)
				1092	set_ov_position(mdev, ns.conn);
				1093	else
				1094	mdev->ov_start_sector = 0;
				1095	mdev->ov_left = mdev->rs_total
				1096	- BM_SECT_TO_BIT(mdev->ov_position);
				1097	mdev->rs_start =
				1098	mdev->rs_mark_time = jiffies;
				1099	mdev->ov_last_oos_size = 0;
				1100	mdev->ov_last_oos_start = 0;
				1101
				1102	if (ns.conn == C_VERIFY_S) {
				1103	dev_info(DEV, "Starting Online Verify from sector %llu\n",
				1104	(unsigned long long)mdev->ov_position);
				1105	mod_timer(&mdev->resync_timer, jiffies);
				1106	}
				1107	}
				1108
				1109	if (get_ldev(mdev)) {
				1110	u32 mdf = mdev->ldev->md.flags & ~(MDF_CONSISTENT\|MDF_PRIMARY_IND\|
				1111	MDF_CONNECTED_IND\|MDF_WAS_UP_TO_DATE\|
				1112	MDF_PEER_OUT_DATED\|MDF_CRASHED_PRIMARY);
				1113
				1114	if (test_bit(CRASHED_PRIMARY, &mdev->flags))
				1115	mdf \|= MDF_CRASHED_PRIMARY;
				1116	if (mdev->state.role == R_PRIMARY \|\|
				1117	(mdev->state.pdsk < D_INCONSISTENT && mdev->state.peer == R_PRIMARY))
				1118	mdf \|= MDF_PRIMARY_IND;
				1119	if (mdev->state.conn > C_WF_REPORT_PARAMS)
				1120	mdf \|= MDF_CONNECTED_IND;
				1121	if (mdev->state.disk > D_INCONSISTENT)
				1122	mdf \|= MDF_CONSISTENT;
				1123	if (mdev->state.disk > D_OUTDATED)
				1124	mdf \|= MDF_WAS_UP_TO_DATE;
				1125	if (mdev->state.pdsk <= D_OUTDATED && mdev->state.pdsk >= D_INCONSISTENT)
				1126	mdf \|= MDF_PEER_OUT_DATED;
				1127	if (mdf != mdev->ldev->md.flags) {
				1128	mdev->ldev->md.flags = mdf;
				1129	drbd_md_mark_dirty(mdev);
				1130	}
				1131	if (os.disk < D_CONSISTENT && ns.disk >= D_CONSISTENT)
				1132	drbd_set_ed_uuid(mdev, mdev->ldev->md.uuid[UI_CURRENT]);
				1133	put_ldev(mdev);
				1134	}
				1135
				1136	/* Peer was forced D_UP_TO_DATE & R_PRIMARY, consider to resync */
				1137	if (os.disk == D_INCONSISTENT && os.pdsk == D_INCONSISTENT &&
				1138	os.peer == R_SECONDARY && ns.peer == R_PRIMARY)
				1139	set_bit(CONSIDER_RESYNC, &mdev->flags);
				1140
				1141	/* Receiver should clean up itself */
				1142	if (os.conn != C_DISCONNECTING && ns.conn == C_DISCONNECTING)
				1143	drbd_thread_stop_nowait(&mdev->receiver);
				1144
				1145	/* Now the receiver finished cleaning up itself, it should die */
				1146	if (os.conn != C_STANDALONE && ns.conn == C_STANDALONE)
				1147	drbd_thread_stop_nowait(&mdev->receiver);
				1148
				1149	/* Upon network failure, we need to restart the receiver. */
				1150	if (os.conn > C_TEAR_DOWN &&
				1151	ns.conn <= C_TEAR_DOWN && ns.conn >= C_TIMEOUT)
				1152	drbd_thread_restart_nowait(&mdev->receiver);
				1153
				1154	ascw = kmalloc(sizeof(*ascw), GFP_ATOMIC);
				1155	if (ascw) {
				1156	ascw->os = os;
				1157	ascw->ns = ns;
				1158	ascw->flags = flags;
				1159	ascw->w.cb = w_after_state_ch;
				1160	ascw->done = done;
				1161	drbd_queue_work(&mdev->data.work, &ascw->w);
				1162	} else {
				1163	dev_warn(DEV, "Could not kmalloc an ascw\n");
				1164	}
				1165
				1166	return rv;
				1167	}
				1168
				1169	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused)
				1170	{
				1171	struct after_state_chg_work *ascw =
				1172	container_of(w, struct after_state_chg_work, w);
				1173	after_state_ch(mdev, ascw->os, ascw->ns, ascw->flags);
				1174	if (ascw->flags & CS_WAIT_COMPLETE) {
				1175	D_ASSERT(ascw->done != NULL);
				1176	complete(ascw->done);
				1177	}
				1178	kfree(ascw);
				1179
				1180	return 1;
				1181	}
				1182
				1183	static void abw_start_sync(struct drbd_conf *mdev, int rv)
				1184	{
				1185	if (rv) {
				1186	dev_err(DEV, "Writing the bitmap failed not starting resync.\n");
				1187	_drbd_request_state(mdev, NS(conn, C_CONNECTED), CS_VERBOSE);
				1188	return;
				1189	}
				1190
				1191	switch (mdev->state.conn) {
				1192	case C_STARTING_SYNC_T:
				1193	_drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
				1194	break;
				1195	case C_STARTING_SYNC_S:
				1196	drbd_start_resync(mdev, C_SYNC_SOURCE);
				1197	break;
				1198	}
				1199	}
				1200
				1201	/**
				1202	* after_state_ch() - Perform after state change actions that may sleep
				1203	* @mdev: DRBD device.
				1204	* @os: old state.
				1205	* @ns: new state.
				1206	* @flags: Flags
				1207	*/
				1208	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				1209	union drbd_state ns, enum chg_state_flags flags)
				1210	{
				1211	enum drbd_fencing_p fp;
				1212
				1213	if (os.conn != C_CONNECTED && ns.conn == C_CONNECTED) {
				1214	clear_bit(CRASHED_PRIMARY, &mdev->flags);
				1215	if (mdev->p_uuid)
				1216	mdev->p_uuid[UI_FLAGS] &= ~((u64)2);
				1217	}
				1218
				1219	fp = FP_DONT_CARE;
				1220	if (get_ldev(mdev)) {
				1221	fp = mdev->ldev->dc.fencing;
				1222	put_ldev(mdev);
				1223	}
				1224
				1225	/* Inform userspace about the change... */
				1226	drbd_bcast_state(mdev, ns);
				1227
				1228	if (!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE) &&
				1229	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE))
				1230	drbd_khelper(mdev, "pri-on-incon-degr");
				1231
				1232	/* Here we have the actions that are performed after a
				1233	state change. This function might sleep */
				1234
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1235	if (os.susp && ns.susp && mdev->sync_conf.on_no_data == OND_SUSPEND_IO) {
				1236	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
				1237	if (ns.conn == C_CONNECTED) {
				1238	spin_lock_irq(&mdev->req_lock);
				1239	_tl_restart(mdev, resend);
				1240	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1241	spin_unlock_irq(&mdev->req_lock);
				1242	} else /* ns.conn > C_CONNECTED */
				1243	dev_err(DEV, "Unexpected Resynd going on!\n");
				1244	}
				1245
				1246	if (os.disk == D_ATTACHING && ns.disk > D_ATTACHING) {
				1247	spin_lock_irq(&mdev->req_lock);
				1248	_tl_restart(mdev, restart_frozen_disk_io);
				1249	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1250	spin_unlock_irq(&mdev->req_lock);
				1251	}
				1252	}
				1253
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1254	if (fp == FP_STONITH && ns.susp) {
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1255	/* case1: The outdate peer handler is successful: */
				1256	if (os.pdsk > D_OUTDATED && ns.pdsk <= D_OUTDATED) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1257	tl_clear(mdev);
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1258	if (test_bit(NEW_CUR_UUID, &mdev->flags)) {
				1259	drbd_uuid_new_current(mdev);
				1260	clear_bit(NEW_CUR_UUID, &mdev->flags);
				1261	drbd_md_sync(mdev);
				1262	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1263	spin_lock_irq(&mdev->req_lock);
				1264	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1265	spin_unlock_irq(&mdev->req_lock);
				1266	}
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1267	/* case2: The connection was established again: */
				1268	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
				1269	clear_bit(NEW_CUR_UUID, &mdev->flags);
				1270	spin_lock_irq(&mdev->req_lock);
				1271	_tl_restart(mdev, resend);
				1272	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1273	spin_unlock_irq(&mdev->req_lock);
				1274	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1275	}
				1276	/* Do not change the order of the if above and the two below... */
				1277	if (os.pdsk == D_DISKLESS && ns.pdsk > D_DISKLESS) { /* attach on the peer */
				1278	drbd_send_uuids(mdev);
				1279	drbd_send_state(mdev);
				1280	}
				1281	if (os.conn != C_WF_BITMAP_S && ns.conn == C_WF_BITMAP_S)
				1282	drbd_queue_bitmap_io(mdev, &drbd_send_bitmap, NULL, "send_bitmap (WFBitMapS)");
				1283
				1284	/* Lost contact to peer's copy of the data */
				1285	if ((os.pdsk >= D_INCONSISTENT &&
				1286	os.pdsk != D_UNKNOWN &&
				1287	os.pdsk != D_OUTDATED)
				1288	&& (ns.pdsk < D_INCONSISTENT \|\|
				1289	ns.pdsk == D_UNKNOWN \|\|
				1290	ns.pdsk == D_OUTDATED)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1291	if (get_ldev(mdev)) {
				1292	if ((ns.role == R_PRIMARY \|\| ns.peer == R_PRIMARY) &&
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1293	mdev->ldev->md.uuid[UI_BITMAP] == 0 && ns.disk >= D_UP_TO_DATE) {
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1294	if (mdev->state.susp) {
				1295	set_bit(NEW_CUR_UUID, &mdev->flags);
				1296	} else {
				1297	drbd_uuid_new_current(mdev);
				1298	drbd_send_uuids(mdev);
				1299	}
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1300	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1301	put_ldev(mdev);
				1302	}
				1303	}
				1304
				1305	if (ns.pdsk < D_INCONSISTENT && get_ldev(mdev)) {
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame]	1306	if (ns.peer == R_PRIMARY && mdev->ldev->md.uuid[UI_BITMAP] == 0) {
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1307	drbd_uuid_new_current(mdev);
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame]	1308	drbd_send_uuids(mdev);
				1309	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1310
				1311	/* D_DISKLESS Peer becomes secondary */
				1312	if (os.peer == R_PRIMARY && ns.peer == R_SECONDARY)
				1313	drbd_al_to_on_disk_bm(mdev);
				1314	put_ldev(mdev);
				1315	}
				1316
				1317	/* Last part of the attaching process ... */
				1318	if (ns.conn >= C_CONNECTED &&
				1319	os.disk == D_ATTACHING && ns.disk == D_NEGOTIATING) {
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1320	drbd_send_sizes(mdev, 0, 0); /* to start sync... */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1321	drbd_send_uuids(mdev);
				1322	drbd_send_state(mdev);
				1323	}
				1324
				1325	/* We want to pause/continue resync, tell peer. */
				1326	if (ns.conn >= C_CONNECTED &&
				1327	((os.aftr_isp != ns.aftr_isp) \|\|
				1328	(os.user_isp != ns.user_isp)))
				1329	drbd_send_state(mdev);
				1330
				1331	/* In case one of the isp bits got set, suspend other devices. */
				1332	if ((!os.aftr_isp && !os.peer_isp && !os.user_isp) &&
				1333	(ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp))
				1334	suspend_other_sg(mdev);
				1335
				1336	/* Make sure the peer gets informed about eventual state
				1337	changes (ISP bits) while we were in WFReportParams. */
				1338	if (os.conn == C_WF_REPORT_PARAMS && ns.conn >= C_CONNECTED)
				1339	drbd_send_state(mdev);
				1340
				1341	/* We are in the progress to start a full sync... */
				1342	if ((os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				1343	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S))
				1344	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, &abw_start_sync, "set_n_write from StartingSync");
				1345
				1346	/* We are invalidating our self... */
				1347	if (os.conn < C_CONNECTED && ns.conn < C_CONNECTED &&
				1348	os.disk > D_INCONSISTENT && ns.disk == D_INCONSISTENT)
				1349	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, NULL, "set_n_write from invalidate");
				1350
				1351	if (os.disk > D_FAILED && ns.disk == D_FAILED) {
				1352	enum drbd_io_error_p eh;
				1353
				1354	eh = EP_PASS_ON;
				1355	if (get_ldev_if_state(mdev, D_FAILED)) {
				1356	eh = mdev->ldev->dc.on_io_error;
				1357	put_ldev(mdev);
				1358	}
				1359
				1360	drbd_rs_cancel_all(mdev);
				1361	/* since get_ldev() only works as long as disk>=D_INCONSISTENT,
				1362	and it is D_DISKLESS here, local_cnt can only go down, it can
				1363	not increase... It will reach zero */
				1364	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
				1365	mdev->rs_total = 0;
				1366	mdev->rs_failed = 0;
				1367	atomic_set(&mdev->rs_pending_cnt, 0);
				1368
				1369	spin_lock_irq(&mdev->req_lock);
				1370	_drbd_set_state(_NS(mdev, disk, D_DISKLESS), CS_HARD, NULL);
				1371	spin_unlock_irq(&mdev->req_lock);
				1372
				1373	if (eh == EP_CALL_HELPER)
				1374	drbd_khelper(mdev, "local-io-error");
				1375	}
				1376
				1377	if (os.disk > D_DISKLESS && ns.disk == D_DISKLESS) {
				1378
				1379	if (os.disk == D_FAILED) /* && ns.disk == D_DISKLESS*/ {
				1380	if (drbd_send_state(mdev))
				1381	dev_warn(DEV, "Notified peer that my disk is broken.\n");
				1382	else
				1383	dev_err(DEV, "Sending state in drbd_io_error() failed\n");
				1384	}
				1385
Philipp Reisner	0a6dbf2	2009-12-28 16:58:38 +0100	[diff] [blame]	1386	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1387	lc_destroy(mdev->resync);
				1388	mdev->resync = NULL;
				1389	lc_destroy(mdev->act_log);
				1390	mdev->act_log = NULL;
				1391	__no_warn(local,
				1392	drbd_free_bc(mdev->ldev);
				1393	mdev->ldev = NULL;);
				1394
				1395	if (mdev->md_io_tmpp)
				1396	__free_page(mdev->md_io_tmpp);
				1397	}
				1398
				1399	/* Disks got bigger while they were detached */
				1400	if (ns.disk > D_NEGOTIATING && ns.pdsk > D_NEGOTIATING &&
				1401	test_and_clear_bit(RESYNC_AFTER_NEG, &mdev->flags)) {
				1402	if (ns.conn == C_CONNECTED)
				1403	resync_after_online_grow(mdev);
				1404	}
				1405
				1406	/* A resync finished or aborted, wake paused devices... */
				1407	if ((os.conn > C_CONNECTED && ns.conn <= C_CONNECTED) \|\|
				1408	(os.peer_isp && !ns.peer_isp) \|\|
				1409	(os.user_isp && !ns.user_isp))
				1410	resume_next_sg(mdev);
				1411
				1412	/* Upon network connection, we need to start the receiver */
				1413	if (os.conn == C_STANDALONE && ns.conn == C_UNCONNECTED)
				1414	drbd_thread_start(&mdev->receiver);
				1415
				1416	/* Terminate worker thread if we are unconfigured - it will be
				1417	restarted as needed... */
				1418	if (ns.disk == D_DISKLESS &&
				1419	ns.conn == C_STANDALONE &&
				1420	ns.role == R_SECONDARY) {
				1421	if (os.aftr_isp != ns.aftr_isp)
				1422	resume_next_sg(mdev);
				1423	/* set in __drbd_set_state, unless CONFIG_PENDING was set */
				1424	if (test_bit(DEVICE_DYING, &mdev->flags))
				1425	drbd_thread_stop_nowait(&mdev->worker);
				1426	}
				1427
				1428	drbd_md_sync(mdev);
				1429	}
				1430
				1431
				1432	static int drbd_thread_setup(void *arg)
				1433	{
				1434	struct drbd_thread thi = (struct drbd_thread ) arg;
				1435	struct drbd_conf *mdev = thi->mdev;
				1436	unsigned long flags;
				1437	int retval;
				1438
				1439	restart:
				1440	retval = thi->function(thi);
				1441
				1442	spin_lock_irqsave(&thi->t_lock, flags);
				1443
				1444	/* if the receiver has been "Exiting", the last thing it did
				1445	* was set the conn state to "StandAlone",
				1446	* if now a re-connect request comes in, conn state goes C_UNCONNECTED,
				1447	* and receiver thread will be "started".
				1448	* drbd_thread_start needs to set "Restarting" in that case.
				1449	* t_state check and assignment needs to be within the same spinlock,
				1450	* so either thread_start sees Exiting, and can remap to Restarting,
				1451	* or thread_start see None, and can proceed as normal.
				1452	*/
				1453
				1454	if (thi->t_state == Restarting) {
				1455	dev_info(DEV, "Restarting %s\n", current->comm);
				1456	thi->t_state = Running;
				1457	spin_unlock_irqrestore(&thi->t_lock, flags);
				1458	goto restart;
				1459	}
				1460
				1461	thi->task = NULL;
				1462	thi->t_state = None;
				1463	smp_mb();
				1464	complete(&thi->stop);
				1465	spin_unlock_irqrestore(&thi->t_lock, flags);
				1466
				1467	dev_info(DEV, "Terminating %s\n", current->comm);
				1468
				1469	/* Release mod reference taken when thread was started */
				1470	module_put(THIS_MODULE);
				1471	return retval;
				1472	}
				1473
				1474	static void drbd_thread_init(struct drbd_conf mdev, struct drbd_thread thi,
				1475	int (func) (struct drbd_thread ))
				1476	{
				1477	spin_lock_init(&thi->t_lock);
				1478	thi->task = NULL;
				1479	thi->t_state = None;
				1480	thi->function = func;
				1481	thi->mdev = mdev;
				1482	}
				1483
				1484	int drbd_thread_start(struct drbd_thread *thi)
				1485	{
				1486	struct drbd_conf *mdev = thi->mdev;
				1487	struct task_struct *nt;
				1488	unsigned long flags;
				1489
				1490	const char *me =
				1491	thi == &mdev->receiver ? "receiver" :
				1492	thi == &mdev->asender ? "asender" :
				1493	thi == &mdev->worker ? "worker" : "NONSENSE";
				1494
				1495	/* is used from state engine doing drbd_thread_stop_nowait,
				1496	* while holding the req lock irqsave */
				1497	spin_lock_irqsave(&thi->t_lock, flags);
				1498
				1499	switch (thi->t_state) {
				1500	case None:
				1501	dev_info(DEV, "Starting %s thread (from %s [%d])\n",
				1502	me, current->comm, current->pid);
				1503
				1504	/* Get ref on module for thread - this is released when thread exits */
				1505	if (!try_module_get(THIS_MODULE)) {
				1506	dev_err(DEV, "Failed to get module reference in drbd_thread_start\n");
				1507	spin_unlock_irqrestore(&thi->t_lock, flags);
				1508	return FALSE;
				1509	}
				1510
				1511	init_completion(&thi->stop);
				1512	D_ASSERT(thi->task == NULL);
				1513	thi->reset_cpu_mask = 1;
				1514	thi->t_state = Running;
				1515	spin_unlock_irqrestore(&thi->t_lock, flags);
				1516	flush_signals(current); /* otherw. may get -ERESTARTNOINTR */
				1517
				1518	nt = kthread_create(drbd_thread_setup, (void *) thi,
				1519	"drbd%d_%s", mdev_to_minor(mdev), me);
				1520
				1521	if (IS_ERR(nt)) {
				1522	dev_err(DEV, "Couldn't start thread\n");
				1523
				1524	module_put(THIS_MODULE);
				1525	return FALSE;
				1526	}
				1527	spin_lock_irqsave(&thi->t_lock, flags);
				1528	thi->task = nt;
				1529	thi->t_state = Running;
				1530	spin_unlock_irqrestore(&thi->t_lock, flags);
				1531	wake_up_process(nt);
				1532	break;
				1533	case Exiting:
				1534	thi->t_state = Restarting;
				1535	dev_info(DEV, "Restarting %s thread (from %s [%d])\n",
				1536	me, current->comm, current->pid);
				1537	/* fall through */
				1538	case Running:
				1539	case Restarting:
				1540	default:
				1541	spin_unlock_irqrestore(&thi->t_lock, flags);
				1542	break;
				1543	}
				1544
				1545	return TRUE;
				1546	}
				1547
				1548
				1549	void _drbd_thread_stop(struct drbd_thread *thi, int restart, int wait)
				1550	{
				1551	unsigned long flags;
				1552
				1553	enum drbd_thread_state ns = restart ? Restarting : Exiting;
				1554
				1555	/* may be called from state engine, holding the req lock irqsave */
				1556	spin_lock_irqsave(&thi->t_lock, flags);
				1557
				1558	if (thi->t_state == None) {
				1559	spin_unlock_irqrestore(&thi->t_lock, flags);
				1560	if (restart)
				1561	drbd_thread_start(thi);
				1562	return;
				1563	}
				1564
				1565	if (thi->t_state != ns) {
				1566	if (thi->task == NULL) {
				1567	spin_unlock_irqrestore(&thi->t_lock, flags);
				1568	return;
				1569	}
				1570
				1571	thi->t_state = ns;
				1572	smp_mb();
				1573	init_completion(&thi->stop);
				1574	if (thi->task != current)
				1575	force_sig(DRBD_SIGKILL, thi->task);
				1576
				1577	}
				1578
				1579	spin_unlock_irqrestore(&thi->t_lock, flags);
				1580
				1581	if (wait)
				1582	wait_for_completion(&thi->stop);
				1583	}
				1584
				1585	#ifdef CONFIG_SMP
				1586	/**
				1587	* drbd_calc_cpu_mask() - Generate CPU masks, spread over all CPUs
				1588	* @mdev: DRBD device.
				1589	*
				1590	* Forces all threads of a device onto the same CPU. This is beneficial for
				1591	* DRBD's performance. May be overwritten by user's configuration.
				1592	*/
				1593	void drbd_calc_cpu_mask(struct drbd_conf *mdev)
				1594	{
				1595	int ord, cpu;
				1596
				1597	/* user override. */
				1598	if (cpumask_weight(mdev->cpu_mask))
				1599	return;
				1600
				1601	ord = mdev_to_minor(mdev) % cpumask_weight(cpu_online_mask);
				1602	for_each_online_cpu(cpu) {
				1603	if (ord-- == 0) {
				1604	cpumask_set_cpu(cpu, mdev->cpu_mask);
				1605	return;
				1606	}
				1607	}
				1608	/* should not be reached */
				1609	cpumask_setall(mdev->cpu_mask);
				1610	}
				1611
				1612	/**
				1613	* drbd_thread_current_set_cpu() - modifies the cpu mask of the _current_ thread
				1614	* @mdev: DRBD device.
				1615	*
				1616	* call in the "main loop" of _all_ threads, no need for any mutex, current won't die
				1617	* prematurely.
				1618	*/
				1619	void drbd_thread_current_set_cpu(struct drbd_conf *mdev)
				1620	{
				1621	struct task_struct *p = current;
				1622	struct drbd_thread *thi =
				1623	p == mdev->asender.task ? &mdev->asender :
				1624	p == mdev->receiver.task ? &mdev->receiver :
				1625	p == mdev->worker.task ? &mdev->worker :
				1626	NULL;
				1627	ERR_IF(thi == NULL)
				1628	return;
				1629	if (!thi->reset_cpu_mask)
				1630	return;
				1631	thi->reset_cpu_mask = 0;
				1632	set_cpus_allowed_ptr(p, mdev->cpu_mask);
				1633	}
				1634	#endif
				1635
				1636	/* the appropriate socket mutex must be held already */
				1637	int _drbd_send_cmd(struct drbd_conf mdev, struct socket sock,
				1638	enum drbd_packets cmd, struct p_header *h,
				1639	size_t size, unsigned msg_flags)
				1640	{
				1641	int sent, ok;
				1642
				1643	ERR_IF(!h) return FALSE;
				1644	ERR_IF(!size) return FALSE;
				1645
				1646	h->magic = BE_DRBD_MAGIC;
				1647	h->command = cpu_to_be16(cmd);
				1648	h->length = cpu_to_be16(size-sizeof(struct p_header));
				1649
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1650	sent = drbd_send(mdev, sock, h, size, msg_flags);
				1651
				1652	ok = (sent == size);
				1653	if (!ok)
				1654	dev_err(DEV, "short sent %s size=%d sent=%d\n",
				1655	cmdname(cmd), (int)size, sent);
				1656	return ok;
				1657	}
				1658
				1659	/* don't pass the socket. we may only look at it
				1660	* when we hold the appropriate socket mutex.
				1661	*/
				1662	int drbd_send_cmd(struct drbd_conf *mdev, int use_data_socket,
				1663	enum drbd_packets cmd, struct p_header *h, size_t size)
				1664	{
				1665	int ok = 0;
				1666	struct socket *sock;
				1667
				1668	if (use_data_socket) {
				1669	mutex_lock(&mdev->data.mutex);
				1670	sock = mdev->data.socket;
				1671	} else {
				1672	mutex_lock(&mdev->meta.mutex);
				1673	sock = mdev->meta.socket;
				1674	}
				1675
				1676	/* drbd_disconnect() could have called drbd_free_sock()
				1677	* while we were waiting in down()... */
				1678	if (likely(sock != NULL))
				1679	ok = _drbd_send_cmd(mdev, sock, cmd, h, size, 0);
				1680
				1681	if (use_data_socket)
				1682	mutex_unlock(&mdev->data.mutex);
				1683	else
				1684	mutex_unlock(&mdev->meta.mutex);
				1685	return ok;
				1686	}
				1687
				1688	int drbd_send_cmd2(struct drbd_conf mdev, enum drbd_packets cmd, char data,
				1689	size_t size)
				1690	{
				1691	struct p_header h;
				1692	int ok;
				1693
				1694	h.magic = BE_DRBD_MAGIC;
				1695	h.command = cpu_to_be16(cmd);
				1696	h.length = cpu_to_be16(size);
				1697
				1698	if (!drbd_get_data_sock(mdev))
				1699	return 0;
				1700
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1701	ok = (sizeof(h) ==
				1702	drbd_send(mdev, mdev->data.socket, &h, sizeof(h), 0));
				1703	ok = ok && (size ==
				1704	drbd_send(mdev, mdev->data.socket, data, size, 0));
				1705
				1706	drbd_put_data_sock(mdev);
				1707
				1708	return ok;
				1709	}
				1710
				1711	int drbd_send_sync_param(struct drbd_conf mdev, struct syncer_conf sc)
				1712	{
				1713	struct p_rs_param_89 *p;
				1714	struct socket *sock;
				1715	int size, rv;
				1716	const int apv = mdev->agreed_pro_version;
				1717
				1718	size = apv <= 87 ? sizeof(struct p_rs_param)
				1719	: apv == 88 ? sizeof(struct p_rs_param)
				1720	+ strlen(mdev->sync_conf.verify_alg) + 1
				1721	: /* 89 */ sizeof(struct p_rs_param_89);
				1722
				1723	/* used from admin command context and receiver/worker context.
				1724	* to avoid kmalloc, grab the socket right here,
				1725	* then use the pre-allocated sbuf there */
				1726	mutex_lock(&mdev->data.mutex);
				1727	sock = mdev->data.socket;
				1728
				1729	if (likely(sock != NULL)) {
				1730	enum drbd_packets cmd = apv >= 89 ? P_SYNC_PARAM89 : P_SYNC_PARAM;
				1731
				1732	p = &mdev->data.sbuf.rs_param_89;
				1733
				1734	/* initialize verify_alg and csums_alg */
				1735	memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
				1736
				1737	p->rate = cpu_to_be32(sc->rate);
				1738
				1739	if (apv >= 88)
				1740	strcpy(p->verify_alg, mdev->sync_conf.verify_alg);
				1741	if (apv >= 89)
				1742	strcpy(p->csums_alg, mdev->sync_conf.csums_alg);
				1743
				1744	rv = _drbd_send_cmd(mdev, sock, cmd, &p->head, size, 0);
				1745	} else
				1746	rv = 0; /* not ok */
				1747
				1748	mutex_unlock(&mdev->data.mutex);
				1749
				1750	return rv;
				1751	}
				1752
				1753	int drbd_send_protocol(struct drbd_conf *mdev)
				1754	{
				1755	struct p_protocol *p;
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1756	int size, cf, rv;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1757
				1758	size = sizeof(struct p_protocol);
				1759
				1760	if (mdev->agreed_pro_version >= 87)
				1761	size += strlen(mdev->net_conf->integrity_alg) + 1;
				1762
				1763	/* we must not recurse into our own queue,
				1764	* as that is blocked during handshake */
				1765	p = kmalloc(size, GFP_NOIO);
				1766	if (p == NULL)
				1767	return 0;
				1768
				1769	p->protocol = cpu_to_be32(mdev->net_conf->wire_protocol);
				1770	p->after_sb_0p = cpu_to_be32(mdev->net_conf->after_sb_0p);
				1771	p->after_sb_1p = cpu_to_be32(mdev->net_conf->after_sb_1p);
				1772	p->after_sb_2p = cpu_to_be32(mdev->net_conf->after_sb_2p);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1773	p->two_primaries = cpu_to_be32(mdev->net_conf->two_primaries);
				1774
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1775	cf = 0;
				1776	if (mdev->net_conf->want_lose)
				1777	cf \|= CF_WANT_LOSE;
				1778	if (mdev->net_conf->dry_run) {
				1779	if (mdev->agreed_pro_version >= 92)
				1780	cf \|= CF_DRY_RUN;
				1781	else {
				1782	dev_err(DEV, "--dry-run is not supported by peer");
Dan Carpenter	7ac314c	2010-04-22 14:27:23 +0200	[diff] [blame]	1783	kfree(p);
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1784	return 0;
				1785	}
				1786	}
				1787	p->conn_flags = cpu_to_be32(cf);
				1788
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1789	if (mdev->agreed_pro_version >= 87)
				1790	strcpy(p->integrity_alg, mdev->net_conf->integrity_alg);
				1791
				1792	rv = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_PROTOCOL,
				1793	(struct p_header *)p, size);
				1794	kfree(p);
				1795	return rv;
				1796	}
				1797
				1798	int _drbd_send_uuids(struct drbd_conf *mdev, u64 uuid_flags)
				1799	{
				1800	struct p_uuids p;
				1801	int i;
				1802
				1803	if (!get_ldev_if_state(mdev, D_NEGOTIATING))
				1804	return 1;
				1805
				1806	for (i = UI_CURRENT; i < UI_SIZE; i++)
				1807	p.uuid[i] = mdev->ldev ? cpu_to_be64(mdev->ldev->md.uuid[i]) : 0;
				1808
				1809	mdev->comm_bm_set = drbd_bm_total_weight(mdev);
				1810	p.uuid[UI_SIZE] = cpu_to_be64(mdev->comm_bm_set);
				1811	uuid_flags \|= mdev->net_conf->want_lose ? 1 : 0;
				1812	uuid_flags \|= test_bit(CRASHED_PRIMARY, &mdev->flags) ? 2 : 0;
				1813	uuid_flags \|= mdev->new_state_tmp.disk == D_INCONSISTENT ? 4 : 0;
				1814	p.uuid[UI_FLAGS] = cpu_to_be64(uuid_flags);
				1815
				1816	put_ldev(mdev);
				1817
				1818	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_UUIDS,
				1819	(struct p_header *)&p, sizeof(p));
				1820	}
				1821
				1822	int drbd_send_uuids(struct drbd_conf *mdev)
				1823	{
				1824	return _drbd_send_uuids(mdev, 0);
				1825	}
				1826
				1827	int drbd_send_uuids_skip_initial_sync(struct drbd_conf *mdev)
				1828	{
				1829	return _drbd_send_uuids(mdev, 8);
				1830	}
				1831
				1832
				1833	int drbd_send_sync_uuid(struct drbd_conf *mdev, u64 val)
				1834	{
				1835	struct p_rs_uuid p;
				1836
				1837	p.uuid = cpu_to_be64(val);
				1838
				1839	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SYNC_UUID,
				1840	(struct p_header *)&p, sizeof(p));
				1841	}
				1842
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1843	int drbd_send_sizes(struct drbd_conf *mdev, int trigger_reply, enum dds_flags flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1844	{
				1845	struct p_sizes p;
				1846	sector_t d_size, u_size;
				1847	int q_order_type;
				1848	int ok;
				1849
				1850	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1851	D_ASSERT(mdev->ldev->backing_bdev);
				1852	d_size = drbd_get_max_capacity(mdev->ldev);
				1853	u_size = mdev->ldev->dc.disk_size;
				1854	q_order_type = drbd_queue_order_type(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1855	put_ldev(mdev);
				1856	} else {
				1857	d_size = 0;
				1858	u_size = 0;
				1859	q_order_type = QUEUE_ORDERED_NONE;
				1860	}
				1861
				1862	p.d_size = cpu_to_be64(d_size);
				1863	p.u_size = cpu_to_be64(u_size);
				1864	p.c_size = cpu_to_be64(trigger_reply ? 0 : drbd_get_capacity(mdev->this_bdev));
				1865	p.max_segment_size = cpu_to_be32(queue_max_segment_size(mdev->rq_queue));
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1866	p.queue_order_type = cpu_to_be16(q_order_type);
				1867	p.dds_flags = cpu_to_be16(flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1868
				1869	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SIZES,
				1870	(struct p_header *)&p, sizeof(p));
				1871	return ok;
				1872	}
				1873
				1874	/**
				1875	* drbd_send_state() - Sends the drbd state to the peer
				1876	* @mdev: DRBD device.
				1877	*/
				1878	int drbd_send_state(struct drbd_conf *mdev)
				1879	{
				1880	struct socket *sock;
				1881	struct p_state p;
				1882	int ok = 0;
				1883
				1884	/* Grab state lock so we wont send state if we're in the middle
				1885	* of a cluster wide state change on another thread */
				1886	drbd_state_lock(mdev);
				1887
				1888	mutex_lock(&mdev->data.mutex);
				1889
				1890	p.state = cpu_to_be32(mdev->state.i); /* Within the send mutex */
				1891	sock = mdev->data.socket;
				1892
				1893	if (likely(sock != NULL)) {
				1894	ok = _drbd_send_cmd(mdev, sock, P_STATE,
				1895	(struct p_header *)&p, sizeof(p), 0);
				1896	}
				1897
				1898	mutex_unlock(&mdev->data.mutex);
				1899
				1900	drbd_state_unlock(mdev);
				1901	return ok;
				1902	}
				1903
				1904	int drbd_send_state_req(struct drbd_conf *mdev,
				1905	union drbd_state mask, union drbd_state val)
				1906	{
				1907	struct p_req_state p;
				1908
				1909	p.mask = cpu_to_be32(mask.i);
				1910	p.val = cpu_to_be32(val.i);
				1911
				1912	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_STATE_CHG_REQ,
				1913	(struct p_header *)&p, sizeof(p));
				1914	}
				1915
				1916	int drbd_send_sr_reply(struct drbd_conf *mdev, int retcode)
				1917	{
				1918	struct p_req_state_reply p;
				1919
				1920	p.retcode = cpu_to_be32(retcode);
				1921
				1922	return drbd_send_cmd(mdev, USE_META_SOCKET, P_STATE_CHG_REPLY,
				1923	(struct p_header *)&p, sizeof(p));
				1924	}
				1925
				1926	int fill_bitmap_rle_bits(struct drbd_conf *mdev,
				1927	struct p_compressed_bm *p,
				1928	struct bm_xfer_ctx *c)
				1929	{
				1930	struct bitstream bs;
				1931	unsigned long plain_bits;
				1932	unsigned long tmp;
				1933	unsigned long rl;
				1934	unsigned len;
				1935	unsigned toggle;
				1936	int bits;
				1937
				1938	/* may we use this feature? */
				1939	if ((mdev->sync_conf.use_rle == 0) \|\|
				1940	(mdev->agreed_pro_version < 90))
				1941	return 0;
				1942
				1943	if (c->bit_offset >= c->bm_bits)
				1944	return 0; /* nothing to do. */
				1945
				1946	/* use at most thus many bytes */
				1947	bitstream_init(&bs, p->code, BM_PACKET_VLI_BYTES_MAX, 0);
				1948	memset(p->code, 0, BM_PACKET_VLI_BYTES_MAX);
				1949	/* plain bits covered in this code string */
				1950	plain_bits = 0;
				1951
				1952	/* p->encoding & 0x80 stores whether the first run length is set.
				1953	* bit offset is implicit.
				1954	* start with toggle == 2 to be able to tell the first iteration */
				1955	toggle = 2;
				1956
				1957	/* see how much plain bits we can stuff into one packet
				1958	* using RLE and VLI. */
				1959	do {
				1960	tmp = (toggle == 0) ? _drbd_bm_find_next_zero(mdev, c->bit_offset)
				1961	: _drbd_bm_find_next(mdev, c->bit_offset);
				1962	if (tmp == -1UL)
				1963	tmp = c->bm_bits;
				1964	rl = tmp - c->bit_offset;
				1965
				1966	if (toggle == 2) { /* first iteration */
				1967	if (rl == 0) {
				1968	/* the first checked bit was set,
				1969	* store start value, */
				1970	DCBP_set_start(p, 1);
				1971	/* but skip encoding of zero run length */
				1972	toggle = !toggle;
				1973	continue;
				1974	}
				1975	DCBP_set_start(p, 0);
				1976	}
				1977
				1978	/* paranoia: catch zero runlength.
				1979	* can only happen if bitmap is modified while we scan it. */
				1980	if (rl == 0) {
				1981	dev_err(DEV, "unexpected zero runlength while encoding bitmap "
				1982	"t:%u bo:%lu\n", toggle, c->bit_offset);
				1983	return -1;
				1984	}
				1985
				1986	bits = vli_encode_bits(&bs, rl);
				1987	if (bits == -ENOBUFS) /* buffer full */
				1988	break;
				1989	if (bits <= 0) {
				1990	dev_err(DEV, "error while encoding bitmap: %d\n", bits);
				1991	return 0;
				1992	}
				1993
				1994	toggle = !toggle;
				1995	plain_bits += rl;
				1996	c->bit_offset = tmp;
				1997	} while (c->bit_offset < c->bm_bits);
				1998
				1999	len = bs.cur.b - p->code + !!bs.cur.bit;
				2000
				2001	if (plain_bits < (len << 3)) {
				2002	/* incompressible with this method.
				2003	* we need to rewind both word and bit position. */
				2004	c->bit_offset -= plain_bits;
				2005	bm_xfer_ctx_bit_to_word_offset(c);
				2006	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2007	return 0;
				2008	}
				2009
				2010	/* RLE + VLI was able to compress it just fine.
				2011	* update c->word_offset. */
				2012	bm_xfer_ctx_bit_to_word_offset(c);
				2013
				2014	/* store pad_bits */
				2015	DCBP_set_pad_bits(p, (8 - bs.cur.bit) & 0x7);
				2016
				2017	return len;
				2018	}
				2019
				2020	enum { OK, FAILED, DONE }
				2021	send_bitmap_rle_or_plain(struct drbd_conf *mdev,
				2022	struct p_header h, struct bm_xfer_ctx c)
				2023	{
				2024	struct p_compressed_bm p = (void)h;
				2025	unsigned long num_words;
				2026	int len;
				2027	int ok;
				2028
				2029	len = fill_bitmap_rle_bits(mdev, p, c);
				2030
				2031	if (len < 0)
				2032	return FAILED;
				2033
				2034	if (len) {
				2035	DCBP_set_code(p, RLE_VLI_Bits);
				2036	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_COMPRESSED_BITMAP, h,
				2037	sizeof(*p) + len, 0);
				2038
				2039	c->packets[0]++;
				2040	c->bytes[0] += sizeof(*p) + len;
				2041
				2042	if (c->bit_offset >= c->bm_bits)
				2043	len = 0; /* DONE */
				2044	} else {
				2045	/* was not compressible.
				2046	* send a buffer full of plain text bits instead. */
				2047	num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
				2048	len = num_words * sizeof(long);
				2049	if (len)
				2050	drbd_bm_get_lel(mdev, c->word_offset, num_words, (unsigned long*)h->payload);
				2051	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BITMAP,
				2052	h, sizeof(struct p_header) + len, 0);
				2053	c->word_offset += num_words;
				2054	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2055
				2056	c->packets[1]++;
				2057	c->bytes[1] += sizeof(struct p_header) + len;
				2058
				2059	if (c->bit_offset > c->bm_bits)
				2060	c->bit_offset = c->bm_bits;
				2061	}
				2062	ok = ok ? ((len == 0) ? DONE : OK) : FAILED;
				2063
				2064	if (ok == DONE)
				2065	INFO_bm_xfer_stats(mdev, "send", c);
				2066	return ok;
				2067	}
				2068
				2069	/* See the comment at receive_bitmap() */
				2070	int _drbd_send_bitmap(struct drbd_conf *mdev)
				2071	{
				2072	struct bm_xfer_ctx c;
				2073	struct p_header *p;
				2074	int ret;
				2075
				2076	ERR_IF(!mdev->bitmap) return FALSE;
				2077
				2078	/* maybe we should use some per thread scratch page,
				2079	* and allocate that during initial device creation? */
				2080	p = (struct p_header *) __get_free_page(GFP_NOIO);
				2081	if (!p) {
				2082	dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
				2083	return FALSE;
				2084	}
				2085
				2086	if (get_ldev(mdev)) {
				2087	if (drbd_md_test_flag(mdev->ldev, MDF_FULL_SYNC)) {
				2088	dev_info(DEV, "Writing the whole bitmap, MDF_FullSync was set.\n");
				2089	drbd_bm_set_all(mdev);
				2090	if (drbd_bm_write(mdev)) {
				2091	/* write_bm did fail! Leave full sync flag set in Meta P_DATA
				2092	* but otherwise process as per normal - need to tell other
				2093	* side that a full resync is required! */
				2094	dev_err(DEV, "Failed to write bitmap to disk!\n");
				2095	} else {
				2096	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				2097	drbd_md_sync(mdev);
				2098	}
				2099	}
				2100	put_ldev(mdev);
				2101	}
				2102
				2103	c = (struct bm_xfer_ctx) {
				2104	.bm_bits = drbd_bm_bits(mdev),
				2105	.bm_words = drbd_bm_words(mdev),
				2106	};
				2107
				2108	do {
				2109	ret = send_bitmap_rle_or_plain(mdev, p, &c);
				2110	} while (ret == OK);
				2111
				2112	free_page((unsigned long) p);
				2113	return (ret == DONE);
				2114	}
				2115
				2116	int drbd_send_bitmap(struct drbd_conf *mdev)
				2117	{
				2118	int err;
				2119
				2120	if (!drbd_get_data_sock(mdev))
				2121	return -1;
				2122	err = !_drbd_send_bitmap(mdev);
				2123	drbd_put_data_sock(mdev);
				2124	return err;
				2125	}
				2126
				2127	int drbd_send_b_ack(struct drbd_conf *mdev, u32 barrier_nr, u32 set_size)
				2128	{
				2129	int ok;
				2130	struct p_barrier_ack p;
				2131
				2132	p.barrier = barrier_nr;
				2133	p.set_size = cpu_to_be32(set_size);
				2134
				2135	if (mdev->state.conn < C_CONNECTED)
				2136	return FALSE;
				2137	ok = drbd_send_cmd(mdev, USE_META_SOCKET, P_BARRIER_ACK,
				2138	(struct p_header *)&p, sizeof(p));
				2139	return ok;
				2140	}
				2141
				2142	/**
				2143	* _drbd_send_ack() - Sends an ack packet
				2144	* @mdev: DRBD device.
				2145	* @cmd: Packet command code.
				2146	* @sector: sector, needs to be in big endian byte order
				2147	* @blksize: size in byte, needs to be in big endian byte order
				2148	* @block_id: Id, big endian byte order
				2149	*/
				2150	static int _drbd_send_ack(struct drbd_conf *mdev, enum drbd_packets cmd,
				2151	u64 sector,
				2152	u32 blksize,
				2153	u64 block_id)
				2154	{
				2155	int ok;
				2156	struct p_block_ack p;
				2157
				2158	p.sector = sector;
				2159	p.block_id = block_id;
				2160	p.blksize = blksize;
				2161	p.seq_num = cpu_to_be32(atomic_add_return(1, &mdev->packet_seq));
				2162
				2163	if (!mdev->meta.socket \|\| mdev->state.conn < C_CONNECTED)
				2164	return FALSE;
				2165	ok = drbd_send_cmd(mdev, USE_META_SOCKET, cmd,
				2166	(struct p_header *)&p, sizeof(p));
				2167	return ok;
				2168	}
				2169
				2170	int drbd_send_ack_dp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2171	struct p_data *dp)
				2172	{
				2173	const int header_size = sizeof(struct p_data)
				2174	- sizeof(struct p_header);
				2175	int data_size = ((struct p_header *)dp)->length - header_size;
				2176
				2177	return _drbd_send_ack(mdev, cmd, dp->sector, cpu_to_be32(data_size),
				2178	dp->block_id);
				2179	}
				2180
				2181	int drbd_send_ack_rp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2182	struct p_block_req *rp)
				2183	{
				2184	return _drbd_send_ack(mdev, cmd, rp->sector, rp->blksize, rp->block_id);
				2185	}
				2186
				2187	/**
				2188	* drbd_send_ack() - Sends an ack packet
				2189	* @mdev: DRBD device.
				2190	* @cmd: Packet command code.
				2191	* @e: Epoch entry.
				2192	*/
				2193	int drbd_send_ack(struct drbd_conf *mdev,
				2194	enum drbd_packets cmd, struct drbd_epoch_entry *e)
				2195	{
				2196	return _drbd_send_ack(mdev, cmd,
				2197	cpu_to_be64(e->sector),
				2198	cpu_to_be32(e->size),
				2199	e->block_id);
				2200	}
				2201
				2202	/* This function misuses the block_id field to signal if the blocks
				2203	* are is sync or not. */
				2204	int drbd_send_ack_ex(struct drbd_conf *mdev, enum drbd_packets cmd,
				2205	sector_t sector, int blksize, u64 block_id)
				2206	{
				2207	return _drbd_send_ack(mdev, cmd,
				2208	cpu_to_be64(sector),
				2209	cpu_to_be32(blksize),
				2210	cpu_to_be64(block_id));
				2211	}
				2212
				2213	int drbd_send_drequest(struct drbd_conf *mdev, int cmd,
				2214	sector_t sector, int size, u64 block_id)
				2215	{
				2216	int ok;
				2217	struct p_block_req p;
				2218
				2219	p.sector = cpu_to_be64(sector);
				2220	p.block_id = block_id;
				2221	p.blksize = cpu_to_be32(size);
				2222
				2223	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, cmd,
				2224	(struct p_header *)&p, sizeof(p));
				2225	return ok;
				2226	}
				2227
				2228	int drbd_send_drequest_csum(struct drbd_conf *mdev,
				2229	sector_t sector, int size,
				2230	void *digest, int digest_size,
				2231	enum drbd_packets cmd)
				2232	{
				2233	int ok;
				2234	struct p_block_req p;
				2235
				2236	p.sector = cpu_to_be64(sector);
				2237	p.block_id = BE_DRBD_MAGIC + 0xbeef;
				2238	p.blksize = cpu_to_be32(size);
				2239
				2240	p.head.magic = BE_DRBD_MAGIC;
				2241	p.head.command = cpu_to_be16(cmd);
				2242	p.head.length = cpu_to_be16(sizeof(p) - sizeof(struct p_header) + digest_size);
				2243
				2244	mutex_lock(&mdev->data.mutex);
				2245
				2246	ok = (sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), 0));
				2247	ok = ok && (digest_size == drbd_send(mdev, mdev->data.socket, digest, digest_size, 0));
				2248
				2249	mutex_unlock(&mdev->data.mutex);
				2250
				2251	return ok;
				2252	}
				2253
				2254	int drbd_send_ov_request(struct drbd_conf *mdev, sector_t sector, int size)
				2255	{
				2256	int ok;
				2257	struct p_block_req p;
				2258
				2259	p.sector = cpu_to_be64(sector);
				2260	p.block_id = BE_DRBD_MAGIC + 0xbabe;
				2261	p.blksize = cpu_to_be32(size);
				2262
				2263	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_OV_REQUEST,
				2264	(struct p_header *)&p, sizeof(p));
				2265	return ok;
				2266	}
				2267
				2268	/* called on sndtimeo
				2269	* returns FALSE if we should retry,
				2270	* TRUE if we think connection is dead
				2271	*/
				2272	static int we_should_drop_the_connection(struct drbd_conf mdev, struct socket sock)
				2273	{
				2274	int drop_it;
				2275	/* long elapsed = (long)(jiffies - mdev->last_received); */
				2276
				2277	drop_it = mdev->meta.socket == sock
				2278	\|\| !mdev->asender.task
				2279	\|\| get_t_state(&mdev->asender) != Running
				2280	\|\| mdev->state.conn < C_CONNECTED;
				2281
				2282	if (drop_it)
				2283	return TRUE;
				2284
				2285	drop_it = !--mdev->ko_count;
				2286	if (!drop_it) {
				2287	dev_err(DEV, "[%s/%d] sock_sendmsg time expired, ko = %u\n",
				2288	current->comm, current->pid, mdev->ko_count);
				2289	request_ping(mdev);
				2290	}
				2291
				2292	return drop_it; /* && (mdev->state == R_PRIMARY) */;
				2293	}
				2294
				2295	/* The idea of sendpage seems to be to put some kind of reference
				2296	* to the page into the skb, and to hand it over to the NIC. In
				2297	* this process get_page() gets called.
				2298	*
				2299	* As soon as the page was really sent over the network put_page()
				2300	* gets called by some part of the network layer. [ NIC driver? ]
				2301	*
				2302	* [ get_page() / put_page() increment/decrement the count. If count
				2303	* reaches 0 the page will be freed. ]
				2304	*
				2305	* This works nicely with pages from FSs.
				2306	* But this means that in protocol A we might signal IO completion too early!
				2307	*
				2308	* In order not to corrupt data during a resync we must make sure
				2309	* that we do not reuse our own buffer pages (EEs) to early, therefore
				2310	* we have the net_ee list.
				2311	*
				2312	* XFS seems to have problems, still, it submits pages with page_count == 0!
				2313	* As a workaround, we disable sendpage on pages
				2314	* with page_count == 0 or PageSlab.
				2315	*/
				2316	static int _drbd_no_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2317	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2318	{
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2319	int sent = drbd_send(mdev, mdev->data.socket, kmap(page) + offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2320	kunmap(page);
				2321	if (sent == size)
				2322	mdev->send_cnt += size>>9;
				2323	return sent == size;
				2324	}
				2325
				2326	static int _drbd_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2327	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2328	{
				2329	mm_segment_t oldfs = get_fs();
				2330	int sent, ok;
				2331	int len = size;
				2332
				2333	/* e.g. XFS meta- & log-data is in slab pages, which have a
				2334	* page_count of 0 and/or have PageSlab() set.
				2335	* we cannot use send_page for those, as that does get_page();
				2336	* put_page(); and would cause either a VM_BUG directly, or
				2337	* __page_cache_release a page that would actually still be referenced
				2338	* by someone, leading to some obscure delayed Oops somewhere else. */
				2339	if (disable_sendpage \|\| (page_count(page) < 1) \|\| PageSlab(page))
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2340	return _drbd_no_send_page(mdev, page, offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2341
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2342	msg_flags \|= MSG_NOSIGNAL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2343	drbd_update_congested(mdev);
				2344	set_fs(KERNEL_DS);
				2345	do {
				2346	sent = mdev->data.socket->ops->sendpage(mdev->data.socket, page,
				2347	offset, len,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2348	msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2349	if (sent == -EAGAIN) {
				2350	if (we_should_drop_the_connection(mdev,
				2351	mdev->data.socket))
				2352	break;
				2353	else
				2354	continue;
				2355	}
				2356	if (sent <= 0) {
				2357	dev_warn(DEV, "%s: size=%d len=%d sent=%d\n",
				2358	__func__, (int)size, len, sent);
				2359	break;
				2360	}
				2361	len -= sent;
				2362	offset += sent;
				2363	} while (len > 0 /* THINK && mdev->cstate >= C_CONNECTED*/);
				2364	set_fs(oldfs);
				2365	clear_bit(NET_CONGESTED, &mdev->flags);
				2366
				2367	ok = (len == 0);
				2368	if (likely(ok))
				2369	mdev->send_cnt += size>>9;
				2370	return ok;
				2371	}
				2372
				2373	static int _drbd_send_bio(struct drbd_conf mdev, struct bio bio)
				2374	{
				2375	struct bio_vec *bvec;
				2376	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2377	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2378	__bio_for_each_segment(bvec, bio, i, 0) {
				2379	if (!_drbd_no_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2380	bvec->bv_offset, bvec->bv_len,
				2381	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2382	return 0;
				2383	}
				2384	return 1;
				2385	}
				2386
				2387	static int _drbd_send_zc_bio(struct drbd_conf mdev, struct bio bio)
				2388	{
				2389	struct bio_vec *bvec;
				2390	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2391	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2392	__bio_for_each_segment(bvec, bio, i, 0) {
				2393	if (!_drbd_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2394	bvec->bv_offset, bvec->bv_len,
				2395	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2396	return 0;
				2397	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2398	return 1;
				2399	}
				2400
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2401	static int _drbd_send_zc_ee(struct drbd_conf mdev, struct drbd_epoch_entry e)
				2402	{
				2403	struct page *page = e->pages;
				2404	unsigned len = e->size;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2405	/* hint all but last page with MSG_MORE */
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2406	page_chain_for_each(page) {
				2407	unsigned l = min_t(unsigned, len, PAGE_SIZE);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2408	if (!_drbd_send_page(mdev, page, 0, l,
				2409	page_chain_next(page) ? MSG_MORE : 0))
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2410	return 0;
				2411	len -= l;
				2412	}
				2413	return 1;
				2414	}
				2415
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2416	/* Used to send write requests
				2417	* R_PRIMARY -> Peer (P_DATA)
				2418	*/
				2419	int drbd_send_dblock(struct drbd_conf mdev, struct drbd_request req)
				2420	{
				2421	int ok = 1;
				2422	struct p_data p;
				2423	unsigned int dp_flags = 0;
				2424	void *dgb;
				2425	int dgs;
				2426
				2427	if (!drbd_get_data_sock(mdev))
				2428	return 0;
				2429
				2430	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2431	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2432
				2433	p.head.magic = BE_DRBD_MAGIC;
				2434	p.head.command = cpu_to_be16(P_DATA);
				2435	p.head.length =
				2436	cpu_to_be16(sizeof(p) - sizeof(struct p_header) + dgs + req->size);
				2437
				2438	p.sector = cpu_to_be64(req->sector);
				2439	p.block_id = (unsigned long)req;
				2440	p.seq_num = cpu_to_be32(req->seq_num =
				2441	atomic_add_return(1, &mdev->packet_seq));
				2442	dp_flags = 0;
				2443
				2444	/* NOTE: no need to check if barriers supported here as we would
				2445	* not pass the test in make_request_common in that case
				2446	*/
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2447	if (req->master_bio->bi_rw & REQ_HARDBARRIER) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2448	dev_err(DEV, "ASSERT FAILED would have set DP_HARDBARRIER\n");
				2449	/* dp_flags \|= DP_HARDBARRIER; */
				2450	}
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2451	if (req->master_bio->bi_rw & REQ_SYNC)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2452	dp_flags \|= DP_RW_SYNC;
				2453	/* for now handle SYNCIO and UNPLUG
				2454	* as if they still were one and the same flag */
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2455	if (req->master_bio->bi_rw & REQ_UNPLUG)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2456	dp_flags \|= DP_RW_SYNC;
				2457	if (mdev->state.conn >= C_SYNC_SOURCE &&
				2458	mdev->state.conn <= C_PAUSED_SYNC_T)
				2459	dp_flags \|= DP_MAY_SET_IN_SYNC;
				2460
				2461	p.dp_flags = cpu_to_be32(dp_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2462	set_bit(UNPLUG_REMOTE, &mdev->flags);
				2463	ok = (sizeof(p) ==
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2464	drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2465	if (ok && dgs) {
				2466	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2467	drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2468	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2469	}
				2470	if (ok) {
				2471	if (mdev->net_conf->wire_protocol == DRBD_PROT_A)
				2472	ok = _drbd_send_bio(mdev, req->master_bio);
				2473	else
				2474	ok = _drbd_send_zc_bio(mdev, req->master_bio);
				2475	}
				2476
				2477	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc	2010-05-04 12:33:58 +0200	[diff] [blame]	2478
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2479	return ok;
				2480	}
				2481
				2482	/* answer packet, used to send data back for read requests:
				2483	* Peer -> (diskless) R_PRIMARY (P_DATA_REPLY)
				2484	* C_SYNC_SOURCE -> C_SYNC_TARGET (P_RS_DATA_REPLY)
				2485	*/
				2486	int drbd_send_block(struct drbd_conf *mdev, enum drbd_packets cmd,
				2487	struct drbd_epoch_entry *e)
				2488	{
				2489	int ok;
				2490	struct p_data p;
				2491	void *dgb;
				2492	int dgs;
				2493
				2494	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2495	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2496
				2497	p.head.magic = BE_DRBD_MAGIC;
				2498	p.head.command = cpu_to_be16(cmd);
				2499	p.head.length =
				2500	cpu_to_be16(sizeof(p) - sizeof(struct p_header) + dgs + e->size);
				2501
				2502	p.sector = cpu_to_be64(e->sector);
				2503	p.block_id = e->block_id;
				2504	/* p.seq_num = 0; No sequence numbers here.. */
				2505
				2506	/* Only called by our kernel thread.
				2507	* This one may be interrupted by DRBD_SIG and/or DRBD_SIGKILL
				2508	* in response to admin command or module unload.
				2509	*/
				2510	if (!drbd_get_data_sock(mdev))
				2511	return 0;
				2512
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2513	ok = sizeof(p) == drbd_send(mdev, mdev->data.socket, &p,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2514	sizeof(p), dgs ? MSG_MORE : 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2515	if (ok && dgs) {
				2516	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2517	drbd_csum_ee(mdev, mdev->integrity_w_tfm, e, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2518	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2519	}
				2520	if (ok)
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2521	ok = _drbd_send_zc_ee(mdev, e);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2522
				2523	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc	2010-05-04 12:33:58 +0200	[diff] [blame]	2524
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2525	return ok;
				2526	}
				2527
				2528	/*
				2529	drbd_send distinguishes two cases:
				2530
				2531	Packets sent via the data socket "sock"
				2532	and packets sent via the meta data socket "msock"
				2533
				2534	sock msock
				2535	-----------------+-------------------------+------------------------------
				2536	timeout conf.timeout / 2 conf.timeout / 2
				2537	timeout action send a ping via msock Abort communication
				2538	and close all sockets
				2539	*/
				2540
				2541	/*
				2542	* you must have down()ed the appropriate [m]sock_mutex elsewhere!
				2543	*/
				2544	int drbd_send(struct drbd_conf mdev, struct socket sock,
				2545	void *buf, size_t size, unsigned msg_flags)
				2546	{
				2547	struct kvec iov;
				2548	struct msghdr msg;
				2549	int rv, sent = 0;
				2550
				2551	if (!sock)
				2552	return -1000;
				2553
				2554	/* THINK if (signal_pending) return ... ? */
				2555
				2556	iov.iov_base = buf;
				2557	iov.iov_len = size;
				2558
				2559	msg.msg_name = NULL;
				2560	msg.msg_namelen = 0;
				2561	msg.msg_control = NULL;
				2562	msg.msg_controllen = 0;
				2563	msg.msg_flags = msg_flags \| MSG_NOSIGNAL;
				2564
				2565	if (sock == mdev->data.socket) {
				2566	mdev->ko_count = mdev->net_conf->ko_count;
				2567	drbd_update_congested(mdev);
				2568	}
				2569	do {
				2570	/* STRANGE
				2571	* tcp_sendmsg does _not_ use its size parameter at all ?
				2572	*
				2573	* -EAGAIN on timeout, -EINTR on signal.
				2574	*/
				2575	/* THINK
				2576	* do we need to block DRBD_SIG if sock == &meta.socket ??
				2577	* otherwise wake_asender() might interrupt some send_*Ack !
				2578	*/
				2579	rv = kernel_sendmsg(sock, &msg, &iov, 1, size);
				2580	if (rv == -EAGAIN) {
				2581	if (we_should_drop_the_connection(mdev, sock))
				2582	break;
				2583	else
				2584	continue;
				2585	}
				2586	D_ASSERT(rv != 0);
				2587	if (rv == -EINTR) {
				2588	flush_signals(current);
				2589	rv = 0;
				2590	}
				2591	if (rv < 0)
				2592	break;
				2593	sent += rv;
				2594	iov.iov_base += rv;
				2595	iov.iov_len -= rv;
				2596	} while (sent < size);
				2597
				2598	if (sock == mdev->data.socket)
				2599	clear_bit(NET_CONGESTED, &mdev->flags);
				2600
				2601	if (rv <= 0) {
				2602	if (rv != -EAGAIN) {
				2603	dev_err(DEV, "%s_sendmsg returned %d\n",
				2604	sock == mdev->meta.socket ? "msock" : "sock",
				2605	rv);
				2606	drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
				2607	} else
				2608	drbd_force_state(mdev, NS(conn, C_TIMEOUT));
				2609	}
				2610
				2611	return sent;
				2612	}
				2613
				2614	static int drbd_open(struct block_device *bdev, fmode_t mode)
				2615	{
				2616	struct drbd_conf *mdev = bdev->bd_disk->private_data;
				2617	unsigned long flags;
				2618	int rv = 0;
				2619
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2620	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2621	spin_lock_irqsave(&mdev->req_lock, flags);
				2622	/* to have a stable mdev->state.role
				2623	* and no race with updating open_cnt */
				2624
				2625	if (mdev->state.role != R_PRIMARY) {
				2626	if (mode & FMODE_WRITE)
				2627	rv = -EROFS;
				2628	else if (!allow_oos)
				2629	rv = -EMEDIUMTYPE;
				2630	}
				2631
				2632	if (!rv)
				2633	mdev->open_cnt++;
				2634	spin_unlock_irqrestore(&mdev->req_lock, flags);
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2635	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2636
				2637	return rv;
				2638	}
				2639
				2640	static int drbd_release(struct gendisk *gd, fmode_t mode)
				2641	{
				2642	struct drbd_conf *mdev = gd->private_data;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2643	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2644	mdev->open_cnt--;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2645	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2646	return 0;
				2647	}
				2648
				2649	static void drbd_unplug_fn(struct request_queue *q)
				2650	{
				2651	struct drbd_conf *mdev = q->queuedata;
				2652
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2653	/* unplug FIRST */
				2654	spin_lock_irq(q->queue_lock);
				2655	blk_remove_plug(q);
				2656	spin_unlock_irq(q->queue_lock);
				2657
				2658	/* only if connected */
				2659	spin_lock_irq(&mdev->req_lock);
				2660	if (mdev->state.pdsk >= D_INCONSISTENT && mdev->state.conn >= C_CONNECTED) {
				2661	D_ASSERT(mdev->state.role == R_PRIMARY);
				2662	if (test_and_clear_bit(UNPLUG_REMOTE, &mdev->flags)) {
				2663	/* add to the data.work queue,
				2664	* unless already queued.
				2665	* XXX this might be a good addition to drbd_queue_work
				2666	* anyways, to detect "double queuing" ... */
				2667	if (list_empty(&mdev->unplug_work.list))
				2668	drbd_queue_work(&mdev->data.work,
				2669	&mdev->unplug_work);
				2670	}
				2671	}
				2672	spin_unlock_irq(&mdev->req_lock);
				2673
				2674	if (mdev->state.disk >= D_INCONSISTENT)
				2675	drbd_kick_lo(mdev);
				2676	}
				2677
				2678	static void drbd_set_defaults(struct drbd_conf *mdev)
				2679	{
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2680	/* This way we get a compile error when sync_conf grows,
				2681	and we forgot to initialize it here */
				2682	mdev->sync_conf = (struct syncer_conf) {
				2683	/* .rate = */ DRBD_RATE_DEF,
				2684	/* .after = */ DRBD_AFTER_DEF,
				2685	/* .al_extents = */ DRBD_AL_EXTENTS_DEF,
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2686	/* .verify_alg = */ {}, 0,
				2687	/* .cpu_mask = */ {}, 0,
				2688	/* .csums_alg = */ {}, 0,
				2689	/* .use_rle = */ 0
				2690	};
				2691
				2692	/* Have to use that way, because the layout differs between
				2693	big endian and little endian */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2694	mdev->state = (union drbd_state) {
				2695	{ .role = R_SECONDARY,
				2696	.peer = R_UNKNOWN,
				2697	.conn = C_STANDALONE,
				2698	.disk = D_DISKLESS,
				2699	.pdsk = D_UNKNOWN,
				2700	.susp = 0
				2701	} };
				2702	}
				2703
				2704	void drbd_init_set_defaults(struct drbd_conf *mdev)
				2705	{
				2706	/* the memset(,0,) did most of this.
				2707	* note: only assignments, no allocation in here */
				2708
				2709	drbd_set_defaults(mdev);
				2710
				2711	/* for now, we do NOT yet support it,
				2712	* even though we start some framework
				2713	* to eventually support barriers */
				2714	set_bit(NO_BARRIER_SUPP, &mdev->flags);
				2715
				2716	atomic_set(&mdev->ap_bio_cnt, 0);
				2717	atomic_set(&mdev->ap_pending_cnt, 0);
				2718	atomic_set(&mdev->rs_pending_cnt, 0);
				2719	atomic_set(&mdev->unacked_cnt, 0);
				2720	atomic_set(&mdev->local_cnt, 0);
				2721	atomic_set(&mdev->net_cnt, 0);
				2722	atomic_set(&mdev->packet_seq, 0);
				2723	atomic_set(&mdev->pp_in_use, 0);
				2724
				2725	mutex_init(&mdev->md_io_mutex);
				2726	mutex_init(&mdev->data.mutex);
				2727	mutex_init(&mdev->meta.mutex);
				2728	sema_init(&mdev->data.work.s, 0);
				2729	sema_init(&mdev->meta.work.s, 0);
				2730	mutex_init(&mdev->state_mutex);
				2731
				2732	spin_lock_init(&mdev->data.work.q_lock);
				2733	spin_lock_init(&mdev->meta.work.q_lock);
				2734
				2735	spin_lock_init(&mdev->al_lock);
				2736	spin_lock_init(&mdev->req_lock);
				2737	spin_lock_init(&mdev->peer_seq_lock);
				2738	spin_lock_init(&mdev->epoch_lock);
				2739
				2740	INIT_LIST_HEAD(&mdev->active_ee);
				2741	INIT_LIST_HEAD(&mdev->sync_ee);
				2742	INIT_LIST_HEAD(&mdev->done_ee);
				2743	INIT_LIST_HEAD(&mdev->read_ee);
				2744	INIT_LIST_HEAD(&mdev->net_ee);
				2745	INIT_LIST_HEAD(&mdev->resync_reads);
				2746	INIT_LIST_HEAD(&mdev->data.work.q);
				2747	INIT_LIST_HEAD(&mdev->meta.work.q);
				2748	INIT_LIST_HEAD(&mdev->resync_work.list);
				2749	INIT_LIST_HEAD(&mdev->unplug_work.list);
				2750	INIT_LIST_HEAD(&mdev->md_sync_work.list);
				2751	INIT_LIST_HEAD(&mdev->bm_io_work.w.list);
Philipp Reisner	0ced55a	2010-04-30 15:26:20 +0200	[diff] [blame]	2752
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2753	mdev->resync_work.cb = w_resync_inactive;
				2754	mdev->unplug_work.cb = w_send_write_hint;
				2755	mdev->md_sync_work.cb = w_md_sync;
				2756	mdev->bm_io_work.w.cb = w_bitmap_io;
				2757	init_timer(&mdev->resync_timer);
				2758	init_timer(&mdev->md_sync_timer);
				2759	mdev->resync_timer.function = resync_timer_fn;
				2760	mdev->resync_timer.data = (unsigned long) mdev;
				2761	mdev->md_sync_timer.function = md_sync_timer_fn;
				2762	mdev->md_sync_timer.data = (unsigned long) mdev;
				2763
				2764	init_waitqueue_head(&mdev->misc_wait);
				2765	init_waitqueue_head(&mdev->state_wait);
Philipp Reisner	84dfb9f	2010-06-23 11:20:05 +0200	[diff] [blame^]	2766	init_waitqueue_head(&mdev->net_cnt_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2767	init_waitqueue_head(&mdev->ee_wait);
				2768	init_waitqueue_head(&mdev->al_wait);
				2769	init_waitqueue_head(&mdev->seq_wait);
				2770
				2771	drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
				2772	drbd_thread_init(mdev, &mdev->worker, drbd_worker);
				2773	drbd_thread_init(mdev, &mdev->asender, drbd_asender);
				2774
				2775	mdev->agreed_pro_version = PRO_VERSION_MAX;
				2776	mdev->write_ordering = WO_bio_barrier;
				2777	mdev->resync_wenr = LC_FREE;
				2778	}
				2779
				2780	void drbd_mdev_cleanup(struct drbd_conf *mdev)
				2781	{
				2782	if (mdev->receiver.t_state != None)
				2783	dev_err(DEV, "ASSERT FAILED: receiver t_state == %d expected 0.\n",
				2784	mdev->receiver.t_state);
				2785
				2786	/* no need to lock it, I'm the only thread alive */
				2787	if (atomic_read(&mdev->current_epoch->epoch_size) != 0)
				2788	dev_err(DEV, "epoch_size:%d\n", atomic_read(&mdev->current_epoch->epoch_size));
				2789	mdev->al_writ_cnt =
				2790	mdev->bm_writ_cnt =
				2791	mdev->read_cnt =
				2792	mdev->recv_cnt =
				2793	mdev->send_cnt =
				2794	mdev->writ_cnt =
				2795	mdev->p_size =
				2796	mdev->rs_start =
				2797	mdev->rs_total =
				2798	mdev->rs_failed =
				2799	mdev->rs_mark_left =
				2800	mdev->rs_mark_time = 0;
				2801	D_ASSERT(mdev->net_conf == NULL);
				2802
				2803	drbd_set_my_capacity(mdev, 0);
				2804	if (mdev->bitmap) {
				2805	/* maybe never allocated. */
Philipp Reisner	02d9a94	2010-03-24 16:23:03 +0100	[diff] [blame]	2806	drbd_bm_resize(mdev, 0, 1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2807	drbd_bm_cleanup(mdev);
				2808	}
				2809
				2810	drbd_free_resources(mdev);
				2811
				2812	/*
				2813	* currently we drbd_init_ee only on module load, so
				2814	* we may do drbd_release_ee only on module unload!
				2815	*/
				2816	D_ASSERT(list_empty(&mdev->active_ee));
				2817	D_ASSERT(list_empty(&mdev->sync_ee));
				2818	D_ASSERT(list_empty(&mdev->done_ee));
				2819	D_ASSERT(list_empty(&mdev->read_ee));
				2820	D_ASSERT(list_empty(&mdev->net_ee));
				2821	D_ASSERT(list_empty(&mdev->resync_reads));
				2822	D_ASSERT(list_empty(&mdev->data.work.q));
				2823	D_ASSERT(list_empty(&mdev->meta.work.q));
				2824	D_ASSERT(list_empty(&mdev->resync_work.list));
				2825	D_ASSERT(list_empty(&mdev->unplug_work.list));
				2826
				2827	}
				2828
				2829
				2830	static void drbd_destroy_mempools(void)
				2831	{
				2832	struct page *page;
				2833
				2834	while (drbd_pp_pool) {
				2835	page = drbd_pp_pool;
				2836	drbd_pp_pool = (struct page *)page_private(page);
				2837	__free_page(page);
				2838	drbd_pp_vacant--;
				2839	}
				2840
				2841	/* D_ASSERT(atomic_read(&drbd_pp_vacant)==0); */
				2842
				2843	if (drbd_ee_mempool)
				2844	mempool_destroy(drbd_ee_mempool);
				2845	if (drbd_request_mempool)
				2846	mempool_destroy(drbd_request_mempool);
				2847	if (drbd_ee_cache)
				2848	kmem_cache_destroy(drbd_ee_cache);
				2849	if (drbd_request_cache)
				2850	kmem_cache_destroy(drbd_request_cache);
				2851	if (drbd_bm_ext_cache)
				2852	kmem_cache_destroy(drbd_bm_ext_cache);
				2853	if (drbd_al_ext_cache)
				2854	kmem_cache_destroy(drbd_al_ext_cache);
				2855
				2856	drbd_ee_mempool = NULL;
				2857	drbd_request_mempool = NULL;
				2858	drbd_ee_cache = NULL;
				2859	drbd_request_cache = NULL;
				2860	drbd_bm_ext_cache = NULL;
				2861	drbd_al_ext_cache = NULL;
				2862
				2863	return;
				2864	}
				2865
				2866	static int drbd_create_mempools(void)
				2867	{
				2868	struct page *page;
				2869	const int number = (DRBD_MAX_SEGMENT_SIZE/PAGE_SIZE) * minor_count;
				2870	int i;
				2871
				2872	/* prepare our caches and mempools */
				2873	drbd_request_mempool = NULL;
				2874	drbd_ee_cache = NULL;
				2875	drbd_request_cache = NULL;
				2876	drbd_bm_ext_cache = NULL;
				2877	drbd_al_ext_cache = NULL;
				2878	drbd_pp_pool = NULL;
				2879
				2880	/* caches */
				2881	drbd_request_cache = kmem_cache_create(
				2882	"drbd_req", sizeof(struct drbd_request), 0, 0, NULL);
				2883	if (drbd_request_cache == NULL)
				2884	goto Enomem;
				2885
				2886	drbd_ee_cache = kmem_cache_create(
				2887	"drbd_ee", sizeof(struct drbd_epoch_entry), 0, 0, NULL);
				2888	if (drbd_ee_cache == NULL)
				2889	goto Enomem;
				2890
				2891	drbd_bm_ext_cache = kmem_cache_create(
				2892	"drbd_bm", sizeof(struct bm_extent), 0, 0, NULL);
				2893	if (drbd_bm_ext_cache == NULL)
				2894	goto Enomem;
				2895
				2896	drbd_al_ext_cache = kmem_cache_create(
				2897	"drbd_al", sizeof(struct lc_element), 0, 0, NULL);
				2898	if (drbd_al_ext_cache == NULL)
				2899	goto Enomem;
				2900
				2901	/* mempools */
				2902	drbd_request_mempool = mempool_create(number,
				2903	mempool_alloc_slab, mempool_free_slab, drbd_request_cache);
				2904	if (drbd_request_mempool == NULL)
				2905	goto Enomem;
				2906
				2907	drbd_ee_mempool = mempool_create(number,
				2908	mempool_alloc_slab, mempool_free_slab, drbd_ee_cache);
				2909	if (drbd_request_mempool == NULL)
				2910	goto Enomem;
				2911
				2912	/* drbd's page pool */
				2913	spin_lock_init(&drbd_pp_lock);
				2914
				2915	for (i = 0; i < number; i++) {
				2916	page = alloc_page(GFP_HIGHUSER);
				2917	if (!page)
				2918	goto Enomem;
				2919	set_page_private(page, (unsigned long)drbd_pp_pool);
				2920	drbd_pp_pool = page;
				2921	}
				2922	drbd_pp_vacant = number;
				2923
				2924	return 0;
				2925
				2926	Enomem:
				2927	drbd_destroy_mempools(); /* in case we allocated some */
				2928	return -ENOMEM;
				2929	}
				2930
				2931	static int drbd_notify_sys(struct notifier_block *this, unsigned long code,
				2932	void *unused)
				2933	{
				2934	/* just so we have it. you never know what interesting things we
				2935	* might want to do here some day...
				2936	*/
				2937
				2938	return NOTIFY_DONE;
				2939	}
				2940
				2941	static struct notifier_block drbd_notifier = {
				2942	.notifier_call = drbd_notify_sys,
				2943	};
				2944
				2945	static void drbd_release_ee_lists(struct drbd_conf *mdev)
				2946	{
				2947	int rr;
				2948
				2949	rr = drbd_release_ee(mdev, &mdev->active_ee);
				2950	if (rr)
				2951	dev_err(DEV, "%d EEs in active list found!\n", rr);
				2952
				2953	rr = drbd_release_ee(mdev, &mdev->sync_ee);
				2954	if (rr)
				2955	dev_err(DEV, "%d EEs in sync list found!\n", rr);
				2956
				2957	rr = drbd_release_ee(mdev, &mdev->read_ee);
				2958	if (rr)
				2959	dev_err(DEV, "%d EEs in read list found!\n", rr);
				2960
				2961	rr = drbd_release_ee(mdev, &mdev->done_ee);
				2962	if (rr)
				2963	dev_err(DEV, "%d EEs in done list found!\n", rr);
				2964
				2965	rr = drbd_release_ee(mdev, &mdev->net_ee);
				2966	if (rr)
				2967	dev_err(DEV, "%d EEs in net list found!\n", rr);
				2968	}
				2969
				2970	/* caution. no locking.
				2971	* currently only used from module cleanup code. */
				2972	static void drbd_delete_device(unsigned int minor)
				2973	{
				2974	struct drbd_conf *mdev = minor_to_mdev(minor);
				2975
				2976	if (!mdev)
				2977	return;
				2978
				2979	/* paranoia asserts */
				2980	if (mdev->open_cnt != 0)
				2981	dev_err(DEV, "open_cnt = %d in %s:%u", mdev->open_cnt,
				2982	__FILE__ , __LINE__);
				2983
				2984	ERR_IF (!list_empty(&mdev->data.work.q)) {
				2985	struct list_head *lp;
				2986	list_for_each(lp, &mdev->data.work.q) {
				2987	dev_err(DEV, "lp = %p\n", lp);
				2988	}
				2989	};
				2990	/* end paranoia asserts */
				2991
				2992	del_gendisk(mdev->vdisk);
				2993
				2994	/* cleanup stuff that may have been allocated during
				2995	* device (re-)configuration or state changes */
				2996
				2997	if (mdev->this_bdev)
				2998	bdput(mdev->this_bdev);
				2999
				3000	drbd_free_resources(mdev);
				3001
				3002	drbd_release_ee_lists(mdev);
				3003
				3004	/* should be free'd on disconnect? */
				3005	kfree(mdev->ee_hash);
				3006	/*
				3007	mdev->ee_hash_s = 0;
				3008	mdev->ee_hash = NULL;
				3009	*/
				3010
				3011	lc_destroy(mdev->act_log);
				3012	lc_destroy(mdev->resync);
				3013
				3014	kfree(mdev->p_uuid);
				3015	/* mdev->p_uuid = NULL; */
				3016
				3017	kfree(mdev->int_dig_out);
				3018	kfree(mdev->int_dig_in);
				3019	kfree(mdev->int_dig_vv);
				3020
				3021	/* cleanup the rest that has been
				3022	* allocated from drbd_new_device
				3023	* and actually free the mdev itself */
				3024	drbd_free_mdev(mdev);
				3025	}
				3026
				3027	static void drbd_cleanup(void)
				3028	{
				3029	unsigned int i;
				3030
				3031	unregister_reboot_notifier(&drbd_notifier);
				3032
				3033	drbd_nl_cleanup();
				3034
				3035	if (minor_table) {
				3036	if (drbd_proc)
				3037	remove_proc_entry("drbd", NULL);
				3038	i = minor_count;
				3039	while (i--)
				3040	drbd_delete_device(i);
				3041	drbd_destroy_mempools();
				3042	}
				3043
				3044	kfree(minor_table);
				3045
				3046	unregister_blkdev(DRBD_MAJOR, "drbd");
				3047
				3048	printk(KERN_INFO "drbd: module cleanup done.\n");
				3049	}
				3050
				3051	/**
				3052	* drbd_congested() - Callback for pdflush
				3053	* @congested_data: User data
				3054	* @bdi_bits: Bits pdflush is currently interested in
				3055	*
				3056	* Returns 1<<BDI_async_congested and/or 1<<BDI_sync_congested if we are congested.
				3057	*/
				3058	static int drbd_congested(void *congested_data, int bdi_bits)
				3059	{
				3060	struct drbd_conf *mdev = congested_data;
				3061	struct request_queue *q;
				3062	char reason = '-';
				3063	int r = 0;
				3064
				3065	if (!__inc_ap_bio_cond(mdev)) {
				3066	/* DRBD has frozen IO */
				3067	r = bdi_bits;
				3068	reason = 'd';
				3069	goto out;
				3070	}
				3071
				3072	if (get_ldev(mdev)) {
				3073	q = bdev_get_queue(mdev->ldev->backing_bdev);
				3074	r = bdi_congested(&q->backing_dev_info, bdi_bits);
				3075	put_ldev(mdev);
				3076	if (r)
				3077	reason = 'b';
				3078	}
				3079
				3080	if (bdi_bits & (1 << BDI_async_congested) && test_bit(NET_CONGESTED, &mdev->flags)) {
				3081	r \|= (1 << BDI_async_congested);
				3082	reason = reason == 'b' ? 'a' : 'n';
				3083	}
				3084
				3085	out:
				3086	mdev->congestion_reason = reason;
				3087	return r;
				3088	}
				3089
				3090	struct drbd_conf *drbd_new_device(unsigned int minor)
				3091	{
				3092	struct drbd_conf *mdev;
				3093	struct gendisk *disk;
				3094	struct request_queue *q;
				3095
				3096	/* GFP_KERNEL, we are outside of all write-out paths */
				3097	mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
				3098	if (!mdev)
				3099	return NULL;
				3100	if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
				3101	goto out_no_cpumask;
				3102
				3103	mdev->minor = minor;
				3104
				3105	drbd_init_set_defaults(mdev);
				3106
				3107	q = blk_alloc_queue(GFP_KERNEL);
				3108	if (!q)
				3109	goto out_no_q;
				3110	mdev->rq_queue = q;
				3111	q->queuedata = mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3112
				3113	disk = alloc_disk(1);
				3114	if (!disk)
				3115	goto out_no_disk;
				3116	mdev->vdisk = disk;
				3117
				3118	set_disk_ro(disk, TRUE);
				3119
				3120	disk->queue = q;
				3121	disk->major = DRBD_MAJOR;
				3122	disk->first_minor = minor;
				3123	disk->fops = &drbd_ops;
				3124	sprintf(disk->disk_name, "drbd%d", minor);
				3125	disk->private_data = mdev;
				3126
				3127	mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
				3128	/* we have no partitions. we contain only ourselves. */
				3129	mdev->this_bdev->bd_contains = mdev->this_bdev;
				3130
				3131	q->backing_dev_info.congested_fn = drbd_congested;
				3132	q->backing_dev_info.congested_data = mdev;
				3133
				3134	blk_queue_make_request(q, drbd_make_request_26);
Lars Ellenberg	98ec286	2010-01-21 19:33:14 +0100	[diff] [blame]	3135	blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3136	blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
				3137	blk_queue_merge_bvec(q, drbd_merge_bvec);
				3138	q->queue_lock = &mdev->req_lock; /* needed since we use */
				3139	/* plugging on a queue, that actually has no requests! */
				3140	q->unplug_fn = drbd_unplug_fn;
				3141
				3142	mdev->md_io_page = alloc_page(GFP_KERNEL);
				3143	if (!mdev->md_io_page)
				3144	goto out_no_io_page;
				3145
				3146	if (drbd_bm_init(mdev))
				3147	goto out_no_bitmap;
				3148	/* no need to lock access, we are still initializing this minor device. */
				3149	if (!tl_init(mdev))
				3150	goto out_no_tl;
				3151
				3152	mdev->app_reads_hash = kzalloc(APP_R_HSIZEsizeof(void ), GFP_KERNEL);
				3153	if (!mdev->app_reads_hash)
				3154	goto out_no_app_reads;
				3155
				3156	mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
				3157	if (!mdev->current_epoch)
				3158	goto out_no_epoch;
				3159
				3160	INIT_LIST_HEAD(&mdev->current_epoch->list);
				3161	mdev->epochs = 1;
				3162
				3163	return mdev;
				3164
				3165	/* out_whatever_else:
				3166	kfree(mdev->current_epoch); */
				3167	out_no_epoch:
				3168	kfree(mdev->app_reads_hash);
				3169	out_no_app_reads:
				3170	tl_cleanup(mdev);
				3171	out_no_tl:
				3172	drbd_bm_cleanup(mdev);
				3173	out_no_bitmap:
				3174	__free_page(mdev->md_io_page);
				3175	out_no_io_page:
				3176	put_disk(disk);
				3177	out_no_disk:
				3178	blk_cleanup_queue(q);
				3179	out_no_q:
				3180	free_cpumask_var(mdev->cpu_mask);
				3181	out_no_cpumask:
				3182	kfree(mdev);
				3183	return NULL;
				3184	}
				3185
				3186	/* counterpart of drbd_new_device.
				3187	* last part of drbd_delete_device. */
				3188	void drbd_free_mdev(struct drbd_conf *mdev)
				3189	{
				3190	kfree(mdev->current_epoch);
				3191	kfree(mdev->app_reads_hash);
				3192	tl_cleanup(mdev);
				3193	if (mdev->bitmap) /* should no longer be there. */
				3194	drbd_bm_cleanup(mdev);
				3195	__free_page(mdev->md_io_page);
				3196	put_disk(mdev->vdisk);
				3197	blk_cleanup_queue(mdev->rq_queue);
				3198	free_cpumask_var(mdev->cpu_mask);
				3199	kfree(mdev);
				3200	}
				3201
				3202
				3203	int __init drbd_init(void)
				3204	{
				3205	int err;
				3206
				3207	if (sizeof(struct p_handshake) != 80) {
				3208	printk(KERN_ERR
				3209	"drbd: never change the size or layout "
				3210	"of the HandShake packet.\n");
				3211	return -EINVAL;
				3212	}
				3213
				3214	if (1 > minor_count \|\| minor_count > 255) {
				3215	printk(KERN_ERR
				3216	"drbd: invalid minor_count (%d)\n", minor_count);
				3217	#ifdef MODULE
				3218	return -EINVAL;
				3219	#else
				3220	minor_count = 8;
				3221	#endif
				3222	}
				3223
				3224	err = drbd_nl_init();
				3225	if (err)
				3226	return err;
				3227
				3228	err = register_blkdev(DRBD_MAJOR, "drbd");
				3229	if (err) {
				3230	printk(KERN_ERR
				3231	"drbd: unable to register block device major %d\n",
				3232	DRBD_MAJOR);
				3233	return err;
				3234	}
				3235
				3236	register_reboot_notifier(&drbd_notifier);
				3237
				3238	/*
				3239	* allocate all necessary structs
				3240	*/
				3241	err = -ENOMEM;
				3242
				3243	init_waitqueue_head(&drbd_pp_wait);
				3244
				3245	drbd_proc = NULL; /* play safe for drbd_cleanup */
				3246	minor_table = kzalloc(sizeof(struct drbd_conf )minor_count,
				3247	GFP_KERNEL);
				3248	if (!minor_table)
				3249	goto Enomem;
				3250
				3251	err = drbd_create_mempools();
				3252	if (err)
				3253	goto Enomem;
				3254
Lars Ellenberg	8c484ee	2010-03-11 16:47:58 +0100	[diff] [blame]	3255	drbd_proc = proc_create_data("drbd", S_IFREG \| S_IRUGO , NULL, &drbd_proc_fops, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3256	if (!drbd_proc) {
				3257	printk(KERN_ERR "drbd: unable to register proc file\n");
				3258	goto Enomem;
				3259	}
				3260
				3261	rwlock_init(&global_state_lock);
				3262
				3263	printk(KERN_INFO "drbd: initialized. "
				3264	"Version: " REL_VERSION " (api:%d/proto:%d-%d)\n",
				3265	API_VERSION, PRO_VERSION_MIN, PRO_VERSION_MAX);
				3266	printk(KERN_INFO "drbd: %s\n", drbd_buildtag());
				3267	printk(KERN_INFO "drbd: registered as block device major %d\n",
				3268	DRBD_MAJOR);
				3269	printk(KERN_INFO "drbd: minor_table @ 0x%p\n", minor_table);
				3270
				3271	return 0; /* Success! */
				3272
				3273	Enomem:
				3274	drbd_cleanup();
				3275	if (err == -ENOMEM)
				3276	/* currently always the case */
				3277	printk(KERN_ERR "drbd: ran out of memory\n");
				3278	else
				3279	printk(KERN_ERR "drbd: initialization failure\n");
				3280	return err;
				3281	}
				3282
				3283	void drbd_free_bc(struct drbd_backing_dev *ldev)
				3284	{
				3285	if (ldev == NULL)
				3286	return;
				3287
				3288	bd_release(ldev->backing_bdev);
				3289	bd_release(ldev->md_bdev);
				3290
				3291	fput(ldev->lo_file);
				3292	fput(ldev->md_file);
				3293
				3294	kfree(ldev);
				3295	}
				3296
				3297	void drbd_free_sock(struct drbd_conf *mdev)
				3298	{
				3299	if (mdev->data.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3300	mutex_lock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3301	kernel_sock_shutdown(mdev->data.socket, SHUT_RDWR);
				3302	sock_release(mdev->data.socket);
				3303	mdev->data.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3304	mutex_unlock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3305	}
				3306	if (mdev->meta.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3307	mutex_lock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3308	kernel_sock_shutdown(mdev->meta.socket, SHUT_RDWR);
				3309	sock_release(mdev->meta.socket);
				3310	mdev->meta.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3311	mutex_unlock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3312	}
				3313	}
				3314
				3315
				3316	void drbd_free_resources(struct drbd_conf *mdev)
				3317	{
				3318	crypto_free_hash(mdev->csums_tfm);
				3319	mdev->csums_tfm = NULL;
				3320	crypto_free_hash(mdev->verify_tfm);
				3321	mdev->verify_tfm = NULL;
				3322	crypto_free_hash(mdev->cram_hmac_tfm);
				3323	mdev->cram_hmac_tfm = NULL;
				3324	crypto_free_hash(mdev->integrity_w_tfm);
				3325	mdev->integrity_w_tfm = NULL;
				3326	crypto_free_hash(mdev->integrity_r_tfm);
				3327	mdev->integrity_r_tfm = NULL;
				3328
				3329	drbd_free_sock(mdev);
				3330
				3331	__no_warn(local,
				3332	drbd_free_bc(mdev->ldev);
				3333	mdev->ldev = NULL;);
				3334	}
				3335
				3336	/* meta data management */
				3337
				3338	struct meta_data_on_disk {
				3339	u64 la_size; /* last agreed size. */
				3340	u64 uuid[UI_SIZE]; /* UUIDs. */
				3341	u64 device_uuid;
				3342	u64 reserved_u64_1;
				3343	u32 flags; /* MDF */
				3344	u32 magic;
				3345	u32 md_size_sect;
				3346	u32 al_offset; /* offset to this block */
				3347	u32 al_nr_extents; /* important for restoring the AL */
				3348	/* `-- act_log->nr_elements <-- sync_conf.al_extents */
				3349	u32 bm_offset; /* offset to the bitmap, from here */
				3350	u32 bm_bytes_per_bit; /* BM_BLOCK_SIZE */
				3351	u32 reserved_u32[4];
				3352
				3353	} __packed;
				3354
				3355	/**
				3356	* drbd_md_sync() - Writes the meta data super block if the MD_DIRTY flag bit is set
				3357	* @mdev: DRBD device.
				3358	*/
				3359	void drbd_md_sync(struct drbd_conf *mdev)
				3360	{
				3361	struct meta_data_on_disk *buffer;
				3362	sector_t sector;
				3363	int i;
				3364
				3365	if (!test_and_clear_bit(MD_DIRTY, &mdev->flags))
				3366	return;
				3367	del_timer(&mdev->md_sync_timer);
				3368
				3369	/* We use here D_FAILED and not D_ATTACHING because we try to write
				3370	* metadata even if we detach due to a disk failure! */
				3371	if (!get_ldev_if_state(mdev, D_FAILED))
				3372	return;
				3373
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3374	mutex_lock(&mdev->md_io_mutex);
				3375	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3376	memset(buffer, 0, 512);
				3377
				3378	buffer->la_size = cpu_to_be64(drbd_get_capacity(mdev->this_bdev));
				3379	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3380	buffer->uuid[i] = cpu_to_be64(mdev->ldev->md.uuid[i]);
				3381	buffer->flags = cpu_to_be32(mdev->ldev->md.flags);
				3382	buffer->magic = cpu_to_be32(DRBD_MD_MAGIC);
				3383
				3384	buffer->md_size_sect = cpu_to_be32(mdev->ldev->md.md_size_sect);
				3385	buffer->al_offset = cpu_to_be32(mdev->ldev->md.al_offset);
				3386	buffer->al_nr_extents = cpu_to_be32(mdev->act_log->nr_elements);
				3387	buffer->bm_bytes_per_bit = cpu_to_be32(BM_BLOCK_SIZE);
				3388	buffer->device_uuid = cpu_to_be64(mdev->ldev->md.device_uuid);
				3389
				3390	buffer->bm_offset = cpu_to_be32(mdev->ldev->md.bm_offset);
				3391
				3392	D_ASSERT(drbd_md_ss__(mdev, mdev->ldev) == mdev->ldev->md.md_offset);
				3393	sector = mdev->ldev->md.md_offset;
				3394
				3395	if (drbd_md_sync_page_io(mdev, mdev->ldev, sector, WRITE)) {
				3396	clear_bit(MD_DIRTY, &mdev->flags);
				3397	} else {
				3398	/* this was a try anyways ... */
				3399	dev_err(DEV, "meta data update failed!\n");
				3400
				3401	drbd_chk_io_error(mdev, 1, TRUE);
				3402	}
				3403
				3404	/* Update mdev->ldev->md.la_size_sect,
				3405	* since we updated it on metadata. */
				3406	mdev->ldev->md.la_size_sect = drbd_get_capacity(mdev->this_bdev);
				3407
				3408	mutex_unlock(&mdev->md_io_mutex);
				3409	put_ldev(mdev);
				3410	}
				3411
				3412	/**
				3413	* drbd_md_read() - Reads in the meta data super block
				3414	* @mdev: DRBD device.
				3415	* @bdev: Device from which the meta data should be read in.
				3416	*
				3417	* Return 0 (NO_ERROR) on success, and an enum drbd_ret_codes in case
				3418	* something goes wrong. Currently only: ERR_IO_MD_DISK, ERR_MD_INVALID.
				3419	*/
				3420	int drbd_md_read(struct drbd_conf mdev, struct drbd_backing_dev bdev)
				3421	{
				3422	struct meta_data_on_disk *buffer;
				3423	int i, rv = NO_ERROR;
				3424
				3425	if (!get_ldev_if_state(mdev, D_ATTACHING))
				3426	return ERR_IO_MD_DISK;
				3427
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3428	mutex_lock(&mdev->md_io_mutex);
				3429	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3430
				3431	if (!drbd_md_sync_page_io(mdev, bdev, bdev->md.md_offset, READ)) {
				3432	/* NOTE: cant do normal error processing here as this is
				3433	called BEFORE disk is attached */
				3434	dev_err(DEV, "Error while reading metadata.\n");
				3435	rv = ERR_IO_MD_DISK;
				3436	goto err;
				3437	}
				3438
				3439	if (be32_to_cpu(buffer->magic) != DRBD_MD_MAGIC) {
				3440	dev_err(DEV, "Error while reading metadata, magic not found.\n");
				3441	rv = ERR_MD_INVALID;
				3442	goto err;
				3443	}
				3444	if (be32_to_cpu(buffer->al_offset) != bdev->md.al_offset) {
				3445	dev_err(DEV, "unexpected al_offset: %d (expected %d)\n",
				3446	be32_to_cpu(buffer->al_offset), bdev->md.al_offset);
				3447	rv = ERR_MD_INVALID;
				3448	goto err;
				3449	}
				3450	if (be32_to_cpu(buffer->bm_offset) != bdev->md.bm_offset) {
				3451	dev_err(DEV, "unexpected bm_offset: %d (expected %d)\n",
				3452	be32_to_cpu(buffer->bm_offset), bdev->md.bm_offset);
				3453	rv = ERR_MD_INVALID;
				3454	goto err;
				3455	}
				3456	if (be32_to_cpu(buffer->md_size_sect) != bdev->md.md_size_sect) {
				3457	dev_err(DEV, "unexpected md_size: %u (expected %u)\n",
				3458	be32_to_cpu(buffer->md_size_sect), bdev->md.md_size_sect);
				3459	rv = ERR_MD_INVALID;
				3460	goto err;
				3461	}
				3462
				3463	if (be32_to_cpu(buffer->bm_bytes_per_bit) != BM_BLOCK_SIZE) {
				3464	dev_err(DEV, "unexpected bm_bytes_per_bit: %u (expected %u)\n",
				3465	be32_to_cpu(buffer->bm_bytes_per_bit), BM_BLOCK_SIZE);
				3466	rv = ERR_MD_INVALID;
				3467	goto err;
				3468	}
				3469
				3470	bdev->md.la_size_sect = be64_to_cpu(buffer->la_size);
				3471	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3472	bdev->md.uuid[i] = be64_to_cpu(buffer->uuid[i]);
				3473	bdev->md.flags = be32_to_cpu(buffer->flags);
				3474	mdev->sync_conf.al_extents = be32_to_cpu(buffer->al_nr_extents);
				3475	bdev->md.device_uuid = be64_to_cpu(buffer->device_uuid);
				3476
				3477	if (mdev->sync_conf.al_extents < 7)
				3478	mdev->sync_conf.al_extents = 127;
				3479
				3480	err:
				3481	mutex_unlock(&mdev->md_io_mutex);
				3482	put_ldev(mdev);
				3483
				3484	return rv;
				3485	}
				3486
				3487	/**
				3488	* drbd_md_mark_dirty() - Mark meta data super block as dirty
				3489	* @mdev: DRBD device.
				3490	*
				3491	* Call this function if you change anything that should be written to
				3492	* the meta-data super block. This function sets MD_DIRTY, and starts a
				3493	* timer that ensures that within five seconds you have to call drbd_md_sync().
				3494	*/
				3495	void drbd_md_mark_dirty(struct drbd_conf *mdev)
				3496	{
				3497	set_bit(MD_DIRTY, &mdev->flags);
				3498	mod_timer(&mdev->md_sync_timer, jiffies + 5*HZ);
				3499	}
				3500
				3501
				3502	static void drbd_uuid_move_history(struct drbd_conf *mdev) __must_hold(local)
				3503	{
				3504	int i;
				3505
Jens Axboe	6a0afdf	2009-10-01 09:04:14 +0200	[diff] [blame]	3506	for (i = UI_HISTORY_START; i < UI_HISTORY_END; i++)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3507	mdev->ldev->md.uuid[i+1] = mdev->ldev->md.uuid[i];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3508	}
				3509
				3510	void _drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3511	{
				3512	if (idx == UI_CURRENT) {
				3513	if (mdev->state.role == R_PRIMARY)
				3514	val \|= 1;
				3515	else
				3516	val &= ~((u64)1);
				3517
				3518	drbd_set_ed_uuid(mdev, val);
				3519	}
				3520
				3521	mdev->ldev->md.uuid[idx] = val;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3522	drbd_md_mark_dirty(mdev);
				3523	}
				3524
				3525
				3526	void drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3527	{
				3528	if (mdev->ldev->md.uuid[idx]) {
				3529	drbd_uuid_move_history(mdev);
				3530	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[idx];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3531	}
				3532	_drbd_uuid_set(mdev, idx, val);
				3533	}
				3534
				3535	/**
				3536	* drbd_uuid_new_current() - Creates a new current UUID
				3537	* @mdev: DRBD device.
				3538	*
				3539	* Creates a new current UUID, and rotates the old current UUID into
				3540	* the bitmap slot. Causes an incremental resync upon next connect.
				3541	*/
				3542	void drbd_uuid_new_current(struct drbd_conf *mdev) __must_hold(local)
				3543	{
				3544	u64 val;
				3545
				3546	dev_info(DEV, "Creating new current UUID\n");
				3547	D_ASSERT(mdev->ldev->md.uuid[UI_BITMAP] == 0);
				3548	mdev->ldev->md.uuid[UI_BITMAP] = mdev->ldev->md.uuid[UI_CURRENT];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3549
				3550	get_random_bytes(&val, sizeof(u64));
				3551	_drbd_uuid_set(mdev, UI_CURRENT, val);
				3552	}
				3553
				3554	void drbd_uuid_set_bm(struct drbd_conf *mdev, u64 val) __must_hold(local)
				3555	{
				3556	if (mdev->ldev->md.uuid[UI_BITMAP] == 0 && val == 0)
				3557	return;
				3558
				3559	if (val == 0) {
				3560	drbd_uuid_move_history(mdev);
				3561	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[UI_BITMAP];
				3562	mdev->ldev->md.uuid[UI_BITMAP] = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3563	} else {
				3564	if (mdev->ldev->md.uuid[UI_BITMAP])
				3565	dev_warn(DEV, "bm UUID already set");
				3566
				3567	mdev->ldev->md.uuid[UI_BITMAP] = val;
				3568	mdev->ldev->md.uuid[UI_BITMAP] &= ~((u64)1);
				3569
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3570	}
				3571	drbd_md_mark_dirty(mdev);
				3572	}
				3573
				3574	/**
				3575	* drbd_bmio_set_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3576	* @mdev: DRBD device.
				3577	*
				3578	* Sets all bits in the bitmap and writes the whole bitmap to stable storage.
				3579	*/
				3580	int drbd_bmio_set_n_write(struct drbd_conf *mdev)
				3581	{
				3582	int rv = -EIO;
				3583
				3584	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3585	drbd_md_set_flag(mdev, MDF_FULL_SYNC);
				3586	drbd_md_sync(mdev);
				3587	drbd_bm_set_all(mdev);
				3588
				3589	rv = drbd_bm_write(mdev);
				3590
				3591	if (!rv) {
				3592	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				3593	drbd_md_sync(mdev);
				3594	}
				3595
				3596	put_ldev(mdev);
				3597	}
				3598
				3599	return rv;
				3600	}
				3601
				3602	/**
				3603	* drbd_bmio_clear_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3604	* @mdev: DRBD device.
				3605	*
				3606	* Clears all bits in the bitmap and writes the whole bitmap to stable storage.
				3607	*/
				3608	int drbd_bmio_clear_n_write(struct drbd_conf *mdev)
				3609	{
				3610	int rv = -EIO;
				3611
				3612	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3613	drbd_bm_clear_all(mdev);
				3614	rv = drbd_bm_write(mdev);
				3615	put_ldev(mdev);
				3616	}
				3617
				3618	return rv;
				3619	}
				3620
				3621	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused)
				3622	{
				3623	struct bm_io_work *work = container_of(w, struct bm_io_work, w);
				3624	int rv;
				3625
				3626	D_ASSERT(atomic_read(&mdev->ap_bio_cnt) == 0);
				3627
				3628	drbd_bm_lock(mdev, work->why);
				3629	rv = work->io_fn(mdev);
				3630	drbd_bm_unlock(mdev);
				3631
				3632	clear_bit(BITMAP_IO, &mdev->flags);
				3633	wake_up(&mdev->misc_wait);
				3634
				3635	if (work->done)
				3636	work->done(mdev, rv);
				3637
				3638	clear_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3639	work->why = NULL;
				3640
				3641	return 1;
				3642	}
				3643
				3644	/**
				3645	* drbd_queue_bitmap_io() - Queues an IO operation on the whole bitmap
				3646	* @mdev: DRBD device.
				3647	* @io_fn: IO callback to be called when bitmap IO is possible
				3648	* @done: callback to be called after the bitmap IO was performed
				3649	* @why: Descriptive text of the reason for doing the IO
				3650	*
				3651	* While IO on the bitmap happens we freeze application IO thus we ensure
				3652	* that drbd_set_out_of_sync() can not be called. This function MAY ONLY be
				3653	* called from worker context. It MUST NOT be used while a previous such
				3654	* work is still pending!
				3655	*/
				3656	void drbd_queue_bitmap_io(struct drbd_conf *mdev,
				3657	int (io_fn)(struct drbd_conf ),
				3658	void (done)(struct drbd_conf , int),
				3659	char *why)
				3660	{
				3661	D_ASSERT(current == mdev->worker.task);
				3662
				3663	D_ASSERT(!test_bit(BITMAP_IO_QUEUED, &mdev->flags));
				3664	D_ASSERT(!test_bit(BITMAP_IO, &mdev->flags));
				3665	D_ASSERT(list_empty(&mdev->bm_io_work.w.list));
				3666	if (mdev->bm_io_work.why)
				3667	dev_err(DEV, "FIXME going to queue '%s' but '%s' still pending?\n",
				3668	why, mdev->bm_io_work.why);
				3669
				3670	mdev->bm_io_work.io_fn = io_fn;
				3671	mdev->bm_io_work.done = done;
				3672	mdev->bm_io_work.why = why;
				3673
				3674	set_bit(BITMAP_IO, &mdev->flags);
				3675	if (atomic_read(&mdev->ap_bio_cnt) == 0) {
				3676	if (list_empty(&mdev->bm_io_work.w.list)) {
				3677	set_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3678	drbd_queue_work(&mdev->data.work, &mdev->bm_io_work.w);
				3679	} else
				3680	dev_err(DEV, "FIXME avoided double queuing bm_io_work\n");
				3681	}
				3682	}
				3683
				3684	/**
				3685	* drbd_bitmap_io() - Does an IO operation on the whole bitmap
				3686	* @mdev: DRBD device.
				3687	* @io_fn: IO callback to be called when bitmap IO is possible
				3688	* @why: Descriptive text of the reason for doing the IO
				3689	*
				3690	* freezes application IO while that the actual IO operations runs. This
				3691	* functions MAY NOT be called from worker context.
				3692	*/
				3693	int drbd_bitmap_io(struct drbd_conf mdev, int (io_fn)(struct drbd_conf ), char why)
				3694	{
				3695	int rv;
				3696
				3697	D_ASSERT(current != mdev->worker.task);
				3698
				3699	drbd_suspend_io(mdev);
				3700
				3701	drbd_bm_lock(mdev, why);
				3702	rv = io_fn(mdev);
				3703	drbd_bm_unlock(mdev);
				3704
				3705	drbd_resume_io(mdev);
				3706
				3707	return rv;
				3708	}
				3709
				3710	void drbd_md_set_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3711	{
				3712	if ((mdev->ldev->md.flags & flag) != flag) {
				3713	drbd_md_mark_dirty(mdev);
				3714	mdev->ldev->md.flags \|= flag;
				3715	}
				3716	}
				3717
				3718	void drbd_md_clear_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3719	{
				3720	if ((mdev->ldev->md.flags & flag) != 0) {
				3721	drbd_md_mark_dirty(mdev);
				3722	mdev->ldev->md.flags &= ~flag;
				3723	}
				3724	}
				3725	int drbd_md_test_flag(struct drbd_backing_dev *bdev, int flag)
				3726	{
				3727	return (bdev->md.flags & flag) != 0;
				3728	}
				3729
				3730	static void md_sync_timer_fn(unsigned long data)
				3731	{
				3732	struct drbd_conf mdev = (struct drbd_conf ) data;
				3733
				3734	drbd_queue_work_front(&mdev->data.work, &mdev->md_sync_work);
				3735	}
				3736
				3737	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused)
				3738	{
				3739	dev_warn(DEV, "md_sync_timer expired! Worker calls drbd_md_sync().\n");
				3740	drbd_md_sync(mdev);
				3741
				3742	return 1;
				3743	}
				3744
				3745	#ifdef CONFIG_DRBD_FAULT_INJECTION
				3746	/* Fault insertion support including random number generator shamelessly
				3747	* stolen from kernel/rcutorture.c */
				3748	struct fault_random_state {
				3749	unsigned long state;
				3750	unsigned long count;
				3751	};
				3752
				3753	#define FAULT_RANDOM_MULT 39916801 /* prime */
				3754	#define FAULT_RANDOM_ADD 479001701 /* prime */
				3755	#define FAULT_RANDOM_REFRESH 10000
				3756
				3757	/*
				3758	* Crude but fast random-number generator. Uses a linear congruential
				3759	* generator, with occasional help from get_random_bytes().
				3760	*/
				3761	static unsigned long
				3762	_drbd_fault_random(struct fault_random_state *rsp)
				3763	{
				3764	long refresh;
				3765
Roel Kluin	49829ea	2009-12-15 22:55:44 +0100	[diff] [blame]	3766	if (!rsp->count--) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3767	get_random_bytes(&refresh, sizeof(refresh));
				3768	rsp->state += refresh;
				3769	rsp->count = FAULT_RANDOM_REFRESH;
				3770	}
				3771	rsp->state = rsp->state * FAULT_RANDOM_MULT + FAULT_RANDOM_ADD;
				3772	return swahw32(rsp->state);
				3773	}
				3774
				3775	static char *
				3776	_drbd_fault_str(unsigned int type) {
				3777	static char *_faults[] = {
				3778	[DRBD_FAULT_MD_WR] = "Meta-data write",
				3779	[DRBD_FAULT_MD_RD] = "Meta-data read",
				3780	[DRBD_FAULT_RS_WR] = "Resync write",
				3781	[DRBD_FAULT_RS_RD] = "Resync read",
				3782	[DRBD_FAULT_DT_WR] = "Data write",
				3783	[DRBD_FAULT_DT_RD] = "Data read",
				3784	[DRBD_FAULT_DT_RA] = "Data read ahead",
				3785	[DRBD_FAULT_BM_ALLOC] = "BM allocation",
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	3786	[DRBD_FAULT_AL_EE] = "EE allocation",
				3787	[DRBD_FAULT_RECEIVE] = "receive data corruption",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3788	};
				3789
				3790	return (type < DRBD_FAULT_MAX) ? _faults[type] : "Unknown";
				3791	}
				3792
				3793	unsigned int
				3794	_drbd_insert_fault(struct drbd_conf *mdev, unsigned int type)
				3795	{
				3796	static struct fault_random_state rrs = {0, 0};
				3797
				3798	unsigned int ret = (
				3799	(fault_devs == 0 \|\|
				3800	((1 << mdev_to_minor(mdev)) & fault_devs) != 0) &&
				3801	(((_drbd_fault_random(&rrs) % 100) + 1) <= fault_rate));
				3802
				3803	if (ret) {
				3804	fault_count++;
				3805
Lars Ellenberg	7383506	2010-05-27 11:51:56 +0200	[diff] [blame]	3806	if (__ratelimit(&drbd_ratelimit_state))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3807	dev_warn(DEV, "***Simulating %s failure\n",
				3808	_drbd_fault_str(type));
				3809	}
				3810
				3811	return ret;
				3812	}
				3813	#endif
				3814
				3815	const char *drbd_buildtag(void)
				3816	{
				3817	/* DRBD built from external sources has here a reference to the
				3818	git hash of the source code. */
				3819
				3820	static char buildtag[38] = "\0uilt-in";
				3821
				3822	if (buildtag[0] == 0) {
				3823	#ifdef CONFIG_MODULES
				3824	if (THIS_MODULE != NULL)
				3825	sprintf(buildtag, "srcversion: %-24s", THIS_MODULE->srcversion);
				3826	else
				3827	#endif
				3828	buildtag[0] = 'b';
				3829	}
				3830
				3831	return buildtag;
				3832	}
				3833
				3834	module_init(drbd_init)
				3835	module_exit(drbd_cleanup)
				3836
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3837	EXPORT_SYMBOL(drbd_conn_str);
				3838	EXPORT_SYMBOL(drbd_role_str);
				3839	EXPORT_SYMBOL(drbd_disk_str);
				3840	EXPORT_SYMBOL(drbd_set_st_err_str);