Blame - drivers/block/drbd/drbd_main.c - kernel/msm-5.4

blob: a8a0341fce5320ba6b4303f4ef3e9454581f191e [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	Thanks to Carter Burden, Bart Grantham and Gennadiy Nerubayev
				11	from Logicworks, Inc. for making SDP replication support possible.
				12
				13	drbd is free software; you can redistribute it and/or modify
				14	it under the terms of the GNU General Public License as published by
				15	the Free Software Foundation; either version 2, or (at your option)
				16	any later version.
				17
				18	drbd is distributed in the hope that it will be useful,
				19	but WITHOUT ANY WARRANTY; without even the implied warranty of
				20	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				21	GNU General Public License for more details.
				22
				23	You should have received a copy of the GNU General Public License
				24	along with drbd; see the file COPYING. If not, write to
				25	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				26
				27	*/
				28
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	30	#include <linux/drbd.h>
				31	#include <asm/uaccess.h>
				32	#include <asm/types.h>
				33	#include <net/sock.h>
				34	#include <linux/ctype.h>
				35	#include <linux/smp_lock.h>
				36	#include <linux/fs.h>
				37	#include <linux/file.h>
				38	#include <linux/proc_fs.h>
				39	#include <linux/init.h>
				40	#include <linux/mm.h>
				41	#include <linux/memcontrol.h>
				42	#include <linux/mm_inline.h>
				43	#include <linux/slab.h>
				44	#include <linux/random.h>
				45	#include <linux/reboot.h>
				46	#include <linux/notifier.h>
				47	#include <linux/kthread.h>
				48
				49	#define __KERNEL_SYSCALLS__
				50	#include <linux/unistd.h>
				51	#include <linux/vmalloc.h>
				52
				53	#include <linux/drbd_limits.h>
				54	#include "drbd_int.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	55	#include "drbd_req.h" /* only for _req_mod in tl_release and tl_clear */
				56
				57	#include "drbd_vli.h"
				58
				59	struct after_state_chg_work {
				60	struct drbd_work w;
				61	union drbd_state os;
				62	union drbd_state ns;
				63	enum chg_state_flags flags;
				64	struct completion *done;
				65	};
				66
				67	int drbdd_init(struct drbd_thread *);
				68	int drbd_worker(struct drbd_thread *);
				69	int drbd_asender(struct drbd_thread *);
				70
				71	int drbd_init(void);
				72	static int drbd_open(struct block_device *bdev, fmode_t mode);
				73	static int drbd_release(struct gendisk *gd, fmode_t mode);
				74	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused);
				75	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				76	union drbd_state ns, enum chg_state_flags flags);
				77	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused);
				78	static void md_sync_timer_fn(unsigned long data);
				79	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused);
				80
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	81	MODULE_AUTHOR("Philipp Reisner <phil@linbit.com>, "
				82	"Lars Ellenberg <lars@linbit.com>");
				83	MODULE_DESCRIPTION("drbd - Distributed Replicated Block Device v" REL_VERSION);
				84	MODULE_VERSION(REL_VERSION);
				85	MODULE_LICENSE("GPL");
				86	MODULE_PARM_DESC(minor_count, "Maximum number of drbd devices (1-255)");
				87	MODULE_ALIAS_BLOCKDEV_MAJOR(DRBD_MAJOR);
				88
				89	#include <linux/moduleparam.h>
				90	/* allow_open_on_secondary */
				91	MODULE_PARM_DESC(allow_oos, "DONT USE!");
				92	/* thanks to these macros, if compiled into the kernel (not-module),
				93	* this becomes the boot parameter drbd.minor_count */
				94	module_param(minor_count, uint, 0444);
				95	module_param(disable_sendpage, bool, 0644);
				96	module_param(allow_oos, bool, 0);
				97	module_param(cn_idx, uint, 0444);
				98	module_param(proc_details, int, 0644);
				99
				100	#ifdef CONFIG_DRBD_FAULT_INJECTION
				101	int enable_faults;
				102	int fault_rate;
				103	static int fault_count;
				104	int fault_devs;
				105	/* bitmap of enabled faults */
				106	module_param(enable_faults, int, 0664);
				107	/* fault rate % value - applies to all enabled faults */
				108	module_param(fault_rate, int, 0664);
				109	/* count of faults inserted */
				110	module_param(fault_count, int, 0664);
				111	/* bitmap of devices to insert faults on */
				112	module_param(fault_devs, int, 0644);
				113	#endif
				114
				115	/* module parameter, defined */
				116	unsigned int minor_count = 32;
				117	int disable_sendpage;
				118	int allow_oos;
				119	unsigned int cn_idx = CN_IDX_DRBD;
				120	int proc_details; /* Detail level in proc drbd*/
				121
				122	/* Module parameter for setting the user mode helper program
				123	* to run. Default is /sbin/drbdadm */
				124	char usermode_helper[80] = "/sbin/drbdadm";
				125
				126	module_param_string(usermode_helper, usermode_helper, sizeof(usermode_helper), 0644);
				127
				128	/* in 2.6.x, our device mapping and config info contains our virtual gendisks
				129	* as member "struct gendisk *vdisk;"
				130	*/
				131	struct drbd_conf **minor_table;
				132
				133	struct kmem_cache *drbd_request_cache;
				134	struct kmem_cache drbd_ee_cache; / epoch entries */
				135	struct kmem_cache drbd_bm_ext_cache; / bitmap extents */
				136	struct kmem_cache drbd_al_ext_cache; / activity log extents */
				137	mempool_t *drbd_request_mempool;
				138	mempool_t *drbd_ee_mempool;
				139
				140	/* I do not use a standard mempool, because:
				141	1) I want to hand out the pre-allocated objects first.
				142	2) I want to be able to interrupt sleeping allocation with a signal.
				143	Note: This is a single linked list, the next pointer is the private
				144	member of struct page.
				145	*/
				146	struct page *drbd_pp_pool;
				147	spinlock_t drbd_pp_lock;
				148	int drbd_pp_vacant;
				149	wait_queue_head_t drbd_pp_wait;
				150
				151	DEFINE_RATELIMIT_STATE(drbd_ratelimit_state, 5 * HZ, 5);
				152
Emese Revfy	7d4e9d0	2009-12-14 00:59:30 +0100	[diff] [blame]	153	static const struct block_device_operations drbd_ops = {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	154	.owner = THIS_MODULE,
				155	.open = drbd_open,
				156	.release = drbd_release,
				157	};
				158
				159	#define ARRY_SIZE(A) (sizeof(A)/sizeof(A[0]))
				160
				161	#ifdef __CHECKER__
				162	/* When checking with sparse, and this is an inline function, sparse will
				163	give tons of false positives. When this is a real functions sparse works.
				164	*/
				165	int _get_ldev_if_state(struct drbd_conf *mdev, enum drbd_disk_state mins)
				166	{
				167	int io_allowed;
				168
				169	atomic_inc(&mdev->local_cnt);
				170	io_allowed = (mdev->state.disk >= mins);
				171	if (!io_allowed) {
				172	if (atomic_dec_and_test(&mdev->local_cnt))
				173	wake_up(&mdev->misc_wait);
				174	}
				175	return io_allowed;
				176	}
				177
				178	#endif
				179
				180	/**
				181	* DOC: The transfer log
				182	*
				183	* The transfer log is a single linked list of &struct drbd_tl_epoch objects.
				184	* mdev->newest_tle points to the head, mdev->oldest_tle points to the tail
				185	* of the list. There is always at least one &struct drbd_tl_epoch object.
				186	*
				187	* Each &struct drbd_tl_epoch has a circular double linked list of requests
				188	* attached.
				189	*/
				190	static int tl_init(struct drbd_conf *mdev)
				191	{
				192	struct drbd_tl_epoch *b;
				193
				194	/* during device minor initialization, we may well use GFP_KERNEL */
				195	b = kmalloc(sizeof(struct drbd_tl_epoch), GFP_KERNEL);
				196	if (!b)
				197	return 0;
				198	INIT_LIST_HEAD(&b->requests);
				199	INIT_LIST_HEAD(&b->w.list);
				200	b->next = NULL;
				201	b->br_number = 4711;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	202	b->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	b->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				204
				205	mdev->oldest_tle = b;
				206	mdev->newest_tle = b;
				207	INIT_LIST_HEAD(&mdev->out_of_sequence_requests);
				208
				209	mdev->tl_hash = NULL;
				210	mdev->tl_hash_s = 0;
				211
				212	return 1;
				213	}
				214
				215	static void tl_cleanup(struct drbd_conf *mdev)
				216	{
				217	D_ASSERT(mdev->oldest_tle == mdev->newest_tle);
				218	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				219	kfree(mdev->oldest_tle);
				220	mdev->oldest_tle = NULL;
				221	kfree(mdev->unused_spare_tle);
				222	mdev->unused_spare_tle = NULL;
				223	kfree(mdev->tl_hash);
				224	mdev->tl_hash = NULL;
				225	mdev->tl_hash_s = 0;
				226	}
				227
				228	/**
				229	* _tl_add_barrier() - Adds a barrier to the transfer log
				230	* @mdev: DRBD device.
				231	* @new: Barrier to be added before the current head of the TL.
				232	*
				233	* The caller must hold the req_lock.
				234	*/
				235	void _tl_add_barrier(struct drbd_conf mdev, struct drbd_tl_epoch new)
				236	{
				237	struct drbd_tl_epoch *newest_before;
				238
				239	INIT_LIST_HEAD(&new->requests);
				240	INIT_LIST_HEAD(&new->w.list);
				241	new->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				242	new->next = NULL;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	243	new->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	244
				245	newest_before = mdev->newest_tle;
				246	/* never send a barrier number == 0, because that is special-cased
				247	* when using TCQ for our write ordering code */
				248	new->br_number = (newest_before->br_number+1) ?: 1;
				249	if (mdev->newest_tle != new) {
				250	mdev->newest_tle->next = new;
				251	mdev->newest_tle = new;
				252	}
				253	}
				254
				255	/**
				256	* tl_release() - Free or recycle the oldest &struct drbd_tl_epoch object of the TL
				257	* @mdev: DRBD device.
				258	* @barrier_nr: Expected identifier of the DRBD write barrier packet.
				259	* @set_size: Expected number of requests before that barrier.
				260	*
				261	* In case the passed barrier_nr or set_size does not match the oldest
				262	* &struct drbd_tl_epoch objects this function will cause a termination
				263	* of the connection.
				264	*/
				265	void tl_release(struct drbd_conf *mdev, unsigned int barrier_nr,
				266	unsigned int set_size)
				267	{
				268	struct drbd_tl_epoch b, nob; /* next old barrier */
				269	struct list_head le, tle;
				270	struct drbd_request *r;
				271
				272	spin_lock_irq(&mdev->req_lock);
				273
				274	b = mdev->oldest_tle;
				275
				276	/* first some paranoia code */
				277	if (b == NULL) {
				278	dev_err(DEV, "BAD! BarrierAck #%u received, but no epoch in tl!?\n",
				279	barrier_nr);
				280	goto bail;
				281	}
				282	if (b->br_number != barrier_nr) {
				283	dev_err(DEV, "BAD! BarrierAck #%u received, expected #%u!\n",
				284	barrier_nr, b->br_number);
				285	goto bail;
				286	}
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	287	if (b->n_writes != set_size) {
				288	dev_err(DEV, "BAD! BarrierAck #%u received with n_writes=%u, expected n_writes=%u!\n",
				289	barrier_nr, set_size, b->n_writes);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	290	goto bail;
				291	}
				292
				293	/* Clean up list of requests processed during current epoch */
				294	list_for_each_safe(le, tle, &b->requests) {
				295	r = list_entry(le, struct drbd_request, tl_requests);
				296	_req_mod(r, barrier_acked);
				297	}
				298	/* There could be requests on the list waiting for completion
				299	of the write to the local disk. To avoid corruptions of
				300	slab's data structures we have to remove the lists head.
				301
				302	Also there could have been a barrier ack out of sequence, overtaking
				303	the write acks - which would be a bug and violating write ordering.
				304	To not deadlock in case we lose connection while such requests are
				305	still pending, we need some way to find them for the
				306	_req_mode(connection_lost_while_pending).
				307
				308	These have been list_move'd to the out_of_sequence_requests list in
				309	_req_mod(, barrier_acked) above.
				310	*/
				311	list_del_init(&b->requests);
				312
				313	nob = b->next;
				314	if (test_and_clear_bit(CREATE_BARRIER, &mdev->flags)) {
				315	_tl_add_barrier(mdev, b);
				316	if (nob)
				317	mdev->oldest_tle = nob;
				318	/* if nob == NULL b was the only barrier, and becomes the new
				319	barrier. Therefore mdev->oldest_tle points already to b */
				320	} else {
				321	D_ASSERT(nob != NULL);
				322	mdev->oldest_tle = nob;
				323	kfree(b);
				324	}
				325
				326	spin_unlock_irq(&mdev->req_lock);
				327	dec_ap_pending(mdev);
				328
				329	return;
				330
				331	bail:
				332	spin_unlock_irq(&mdev->req_lock);
				333	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				334	}
				335
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame^]	336	/**
				337	* _tl_restart() - Walks the transfer log, and applies an action to all requests
				338	* @mdev: DRBD device.
				339	* @what: The action/event to perform with all request objects
				340	*
				341	* @what might be one of connection_lost_while_pending, resend, fail_frozen_disk_io,
				342	* restart_frozen_disk_io.
				343	*/
				344	static void _tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				345	{
				346	struct drbd_tl_epoch b, tmp, **pn;
				347	struct list_head le, tle;
				348	struct drbd_request *req;
				349	int rv, n_writes, n_reads;
				350
				351	b = mdev->oldest_tle;
				352	pn = &mdev->oldest_tle;
				353	while (b) {
				354	n_writes = 0;
				355	n_reads = 0;
				356	list_for_each_safe(le, tle, &b->requests) {
				357	req = list_entry(le, struct drbd_request, tl_requests);
				358	rv = _req_mod(req, what);
				359
				360	n_writes += (rv & MR_WRITE) >> MR_WRITE_SHIFT;
				361	n_reads += (rv & MR_READ) >> MR_READ_SHIFT;
				362	}
				363	tmp = b->next;
				364
				365	if (n_writes + n_reads) {
				366	if (what == resend) {
				367	b->n_writes = n_writes;
				368	if (b->w.cb == NULL) {
				369	b->w.cb = w_send_barrier;
				370	inc_ap_pending(mdev);
				371	set_bit(CREATE_BARRIER, &mdev->flags);
				372	}
				373
				374	drbd_queue_work(&mdev->data.work, &b->w);
				375	}
				376	pn = &b->next;
				377	} else {
				378	/* there could still be requests on that ring list,
				379	* in case local io is still pending */
				380	list_del(&b->requests);
				381
				382	/* dec_ap_pending corresponding to queue_barrier.
				383	* the newest barrier may not have been queued yet,
				384	* in which case w.cb is still NULL. */
				385	if (b->w.cb != NULL)
				386	dec_ap_pending(mdev);
				387
				388	if (b == mdev->newest_tle) {
				389	/* recycle, but reinit! */
				390	D_ASSERT(tmp == NULL);
				391	INIT_LIST_HEAD(&b->requests);
				392	INIT_LIST_HEAD(&b->w.list);
				393	b->w.cb = NULL;
				394	b->br_number = net_random();
				395	b->n_writes = 0;
				396
				397	*pn = b;
				398	break;
				399	}
				400	*pn = tmp;
				401	kfree(b);
				402	}
				403	b = tmp;
				404	}
				405	}
				406
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	407
				408	/**
				409	* tl_clear() - Clears all requests and &struct drbd_tl_epoch objects out of the TL
				410	* @mdev: DRBD device.
				411	*
				412	* This is called after the connection to the peer was lost. The storage covered
				413	* by the requests on the transfer gets marked as our of sync. Called from the
				414	* receiver thread and the worker thread.
				415	*/
				416	void tl_clear(struct drbd_conf *mdev)
				417	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	418	struct list_head le, tle;
				419	struct drbd_request *r;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	420
				421	spin_lock_irq(&mdev->req_lock);
				422
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame^]	423	_tl_restart(mdev, connection_lost_while_pending);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	424
				425	/* we expect this list to be empty. */
				426	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				427
				428	/* but just in case, clean it up anyways! */
				429	list_for_each_safe(le, tle, &mdev->out_of_sequence_requests) {
				430	r = list_entry(le, struct drbd_request, tl_requests);
				431	/* It would be nice to complete outside of spinlock.
				432	* But this is easier for now. */
				433	_req_mod(r, connection_lost_while_pending);
				434	}
				435
				436	/* ensure bit indicating barrier is required is clear */
				437	clear_bit(CREATE_BARRIER, &mdev->flags);
				438
Philipp Reisner	288f422	2010-05-27 15:07:43 +0200	[diff] [blame]	439	memset(mdev->app_reads_hash, 0, APP_R_HSIZEsizeof(void ));
				440
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	441	spin_unlock_irq(&mdev->req_lock);
				442	}
				443
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame^]	444	void tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				445	{
				446	spin_lock_irq(&mdev->req_lock);
				447	_tl_restart(mdev, what);
				448	spin_unlock_irq(&mdev->req_lock);
				449	}
				450
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	451	/**
				452	* cl_wide_st_chg() - TRUE if the state change is a cluster wide one
				453	* @mdev: DRBD device.
				454	* @os: old (current) state.
				455	* @ns: new (wanted) state.
				456	*/
				457	static int cl_wide_st_chg(struct drbd_conf *mdev,
				458	union drbd_state os, union drbd_state ns)
				459	{
				460	return (os.conn >= C_CONNECTED && ns.conn >= C_CONNECTED &&
				461	((os.role != R_PRIMARY && ns.role == R_PRIMARY) \|\|
				462	(os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				463	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S) \|\|
				464	(os.disk != D_DISKLESS && ns.disk == D_DISKLESS))) \|\|
				465	(os.conn >= C_CONNECTED && ns.conn == C_DISCONNECTING) \|\|
				466	(os.conn == C_CONNECTED && ns.conn == C_VERIFY_S);
				467	}
				468
				469	int drbd_change_state(struct drbd_conf *mdev, enum chg_state_flags f,
				470	union drbd_state mask, union drbd_state val)
				471	{
				472	unsigned long flags;
				473	union drbd_state os, ns;
				474	int rv;
				475
				476	spin_lock_irqsave(&mdev->req_lock, flags);
				477	os = mdev->state;
				478	ns.i = (os.i & ~mask.i) \| val.i;
				479	rv = _drbd_set_state(mdev, ns, f, NULL);
				480	ns = mdev->state;
				481	spin_unlock_irqrestore(&mdev->req_lock, flags);
				482
				483	return rv;
				484	}
				485
				486	/**
				487	* drbd_force_state() - Impose a change which happens outside our control on our state
				488	* @mdev: DRBD device.
				489	* @mask: mask of state bits to change.
				490	* @val: value of new state bits.
				491	*/
				492	void drbd_force_state(struct drbd_conf *mdev,
				493	union drbd_state mask, union drbd_state val)
				494	{
				495	drbd_change_state(mdev, CS_HARD, mask, val);
				496	}
				497
				498	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns);
				499	static int is_valid_state_transition(struct drbd_conf *,
				500	union drbd_state, union drbd_state);
				501	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
				502	union drbd_state ns, int *warn_sync_abort);
				503	int drbd_send_state_req(struct drbd_conf *,
				504	union drbd_state, union drbd_state);
				505
				506	static enum drbd_state_ret_codes _req_st_cond(struct drbd_conf *mdev,
				507	union drbd_state mask, union drbd_state val)
				508	{
				509	union drbd_state os, ns;
				510	unsigned long flags;
				511	int rv;
				512
				513	if (test_and_clear_bit(CL_ST_CHG_SUCCESS, &mdev->flags))
				514	return SS_CW_SUCCESS;
				515
				516	if (test_and_clear_bit(CL_ST_CHG_FAIL, &mdev->flags))
				517	return SS_CW_FAILED_BY_PEER;
				518
				519	rv = 0;
				520	spin_lock_irqsave(&mdev->req_lock, flags);
				521	os = mdev->state;
				522	ns.i = (os.i & ~mask.i) \| val.i;
				523	ns = sanitize_state(mdev, os, ns, NULL);
				524
				525	if (!cl_wide_st_chg(mdev, os, ns))
				526	rv = SS_CW_NO_NEED;
				527	if (!rv) {
				528	rv = is_valid_state(mdev, ns);
				529	if (rv == SS_SUCCESS) {
				530	rv = is_valid_state_transition(mdev, ns, os);
				531	if (rv == SS_SUCCESS)
				532	rv = 0; /* cont waiting, otherwise fail. */
				533	}
				534	}
				535	spin_unlock_irqrestore(&mdev->req_lock, flags);
				536
				537	return rv;
				538	}
				539
				540	/**
				541	* drbd_req_state() - Perform an eventually cluster wide state change
				542	* @mdev: DRBD device.
				543	* @mask: mask of state bits to change.
				544	* @val: value of new state bits.
				545	* @f: flags
				546	*
				547	* Should not be called directly, use drbd_request_state() or
				548	* _drbd_request_state().
				549	*/
				550	static int drbd_req_state(struct drbd_conf *mdev,
				551	union drbd_state mask, union drbd_state val,
				552	enum chg_state_flags f)
				553	{
				554	struct completion done;
				555	unsigned long flags;
				556	union drbd_state os, ns;
				557	int rv;
				558
				559	init_completion(&done);
				560
				561	if (f & CS_SERIALIZE)
				562	mutex_lock(&mdev->state_mutex);
				563
				564	spin_lock_irqsave(&mdev->req_lock, flags);
				565	os = mdev->state;
				566	ns.i = (os.i & ~mask.i) \| val.i;
				567	ns = sanitize_state(mdev, os, ns, NULL);
				568
				569	if (cl_wide_st_chg(mdev, os, ns)) {
				570	rv = is_valid_state(mdev, ns);
				571	if (rv == SS_SUCCESS)
				572	rv = is_valid_state_transition(mdev, ns, os);
				573	spin_unlock_irqrestore(&mdev->req_lock, flags);
				574
				575	if (rv < SS_SUCCESS) {
				576	if (f & CS_VERBOSE)
				577	print_st_err(mdev, os, ns, rv);
				578	goto abort;
				579	}
				580
				581	drbd_state_lock(mdev);
				582	if (!drbd_send_state_req(mdev, mask, val)) {
				583	drbd_state_unlock(mdev);
				584	rv = SS_CW_FAILED_BY_PEER;
				585	if (f & CS_VERBOSE)
				586	print_st_err(mdev, os, ns, rv);
				587	goto abort;
				588	}
				589
				590	wait_event(mdev->state_wait,
				591	(rv = _req_st_cond(mdev, mask, val)));
				592
				593	if (rv < SS_SUCCESS) {
				594	drbd_state_unlock(mdev);
				595	if (f & CS_VERBOSE)
				596	print_st_err(mdev, os, ns, rv);
				597	goto abort;
				598	}
				599	spin_lock_irqsave(&mdev->req_lock, flags);
				600	os = mdev->state;
				601	ns.i = (os.i & ~mask.i) \| val.i;
				602	rv = _drbd_set_state(mdev, ns, f, &done);
				603	drbd_state_unlock(mdev);
				604	} else {
				605	rv = _drbd_set_state(mdev, ns, f, &done);
				606	}
				607
				608	spin_unlock_irqrestore(&mdev->req_lock, flags);
				609
				610	if (f & CS_WAIT_COMPLETE && rv == SS_SUCCESS) {
				611	D_ASSERT(current != mdev->worker.task);
				612	wait_for_completion(&done);
				613	}
				614
				615	abort:
				616	if (f & CS_SERIALIZE)
				617	mutex_unlock(&mdev->state_mutex);
				618
				619	return rv;
				620	}
				621
				622	/**
				623	* _drbd_request_state() - Request a state change (with flags)
				624	* @mdev: DRBD device.
				625	* @mask: mask of state bits to change.
				626	* @val: value of new state bits.
				627	* @f: flags
				628	*
				629	* Cousin of drbd_request_state(), useful with the CS_WAIT_COMPLETE
				630	* flag, or when logging of failed state change requests is not desired.
				631	*/
				632	int _drbd_request_state(struct drbd_conf *mdev, union drbd_state mask,
				633	union drbd_state val, enum chg_state_flags f)
				634	{
				635	int rv;
				636
				637	wait_event(mdev->state_wait,
				638	(rv = drbd_req_state(mdev, mask, val, f)) != SS_IN_TRANSIENT_STATE);
				639
				640	return rv;
				641	}
				642
				643	static void print_st(struct drbd_conf mdev, char name, union drbd_state ns)
				644	{
				645	dev_err(DEV, " %s = { cs:%s ro:%s/%s ds:%s/%s %c%c%c%c }\n",
				646	name,
				647	drbd_conn_str(ns.conn),
				648	drbd_role_str(ns.role),
				649	drbd_role_str(ns.peer),
				650	drbd_disk_str(ns.disk),
				651	drbd_disk_str(ns.pdsk),
				652	ns.susp ? 's' : 'r',
				653	ns.aftr_isp ? 'a' : '-',
				654	ns.peer_isp ? 'p' : '-',
				655	ns.user_isp ? 'u' : '-'
				656	);
				657	}
				658
				659	void print_st_err(struct drbd_conf *mdev,
				660	union drbd_state os, union drbd_state ns, int err)
				661	{
				662	if (err == SS_IN_TRANSIENT_STATE)
				663	return;
				664	dev_err(DEV, "State change failed: %s\n", drbd_set_st_err_str(err));
				665	print_st(mdev, " state", os);
				666	print_st(mdev, "wanted", ns);
				667	}
				668
				669
				670	#define drbd_peer_str drbd_role_str
				671	#define drbd_pdsk_str drbd_disk_str
				672
				673	#define drbd_susp_str(A) ((A) ? "1" : "0")
				674	#define drbd_aftr_isp_str(A) ((A) ? "1" : "0")
				675	#define drbd_peer_isp_str(A) ((A) ? "1" : "0")
				676	#define drbd_user_isp_str(A) ((A) ? "1" : "0")
				677
				678	#define PSC(A) \
				679	({ if (ns.A != os.A) { \
				680	pbp += sprintf(pbp, #A "( %s -> %s ) ", \
				681	drbd_##A##_str(os.A), \
				682	drbd_##A##_str(ns.A)); \
				683	} })
				684
				685	/**
				686	* is_valid_state() - Returns an SS_ error code if ns is not valid
				687	* @mdev: DRBD device.
				688	* @ns: State to consider.
				689	*/
				690	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns)
				691	{
				692	/* See drbd_state_sw_errors in drbd_strings.c */
				693
				694	enum drbd_fencing_p fp;
				695	int rv = SS_SUCCESS;
				696
				697	fp = FP_DONT_CARE;
				698	if (get_ldev(mdev)) {
				699	fp = mdev->ldev->dc.fencing;
				700	put_ldev(mdev);
				701	}
				702
				703	if (get_net_conf(mdev)) {
				704	if (!mdev->net_conf->two_primaries &&
				705	ns.role == R_PRIMARY && ns.peer == R_PRIMARY)
				706	rv = SS_TWO_PRIMARIES;
				707	put_net_conf(mdev);
				708	}
				709
				710	if (rv <= 0)
				711	/* already found a reason to abort */;
				712	else if (ns.role == R_SECONDARY && mdev->open_cnt)
				713	rv = SS_DEVICE_IN_USE;
				714
				715	else if (ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.disk < D_UP_TO_DATE)
				716	rv = SS_NO_UP_TO_DATE_DISK;
				717
				718	else if (fp >= FP_RESOURCE &&
				719	ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk >= D_UNKNOWN)
				720	rv = SS_PRIMARY_NOP;
				721
				722	else if (ns.role == R_PRIMARY && ns.disk <= D_INCONSISTENT && ns.pdsk <= D_INCONSISTENT)
				723	rv = SS_NO_UP_TO_DATE_DISK;
				724
				725	else if (ns.conn > C_CONNECTED && ns.disk < D_INCONSISTENT)
				726	rv = SS_NO_LOCAL_DISK;
				727
				728	else if (ns.conn > C_CONNECTED && ns.pdsk < D_INCONSISTENT)
				729	rv = SS_NO_REMOTE_DISK;
				730
Lars Ellenberg	8d4ce82	2010-04-01 16:59:32 +0200	[diff] [blame]	731	else if (ns.conn > C_CONNECTED && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE)
				732	rv = SS_NO_UP_TO_DATE_DISK;
				733
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	734	else if ((ns.conn == C_CONNECTED \|\|
				735	ns.conn == C_WF_BITMAP_S \|\|
				736	ns.conn == C_SYNC_SOURCE \|\|
				737	ns.conn == C_PAUSED_SYNC_S) &&
				738	ns.disk == D_OUTDATED)
				739	rv = SS_CONNECTED_OUTDATES;
				740
				741	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				742	(mdev->sync_conf.verify_alg[0] == 0))
				743	rv = SS_NO_VERIFY_ALG;
				744
				745	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				746	mdev->agreed_pro_version < 88)
				747	rv = SS_NOT_SUPPORTED;
				748
				749	return rv;
				750	}
				751
				752	/**
				753	* is_valid_state_transition() - Returns an SS_ error code if the state transition is not possible
				754	* @mdev: DRBD device.
				755	* @ns: new state.
				756	* @os: old state.
				757	*/
				758	static int is_valid_state_transition(struct drbd_conf *mdev,
				759	union drbd_state ns, union drbd_state os)
				760	{
				761	int rv = SS_SUCCESS;
				762
				763	if ((ns.conn == C_STARTING_SYNC_T \|\| ns.conn == C_STARTING_SYNC_S) &&
				764	os.conn > C_CONNECTED)
				765	rv = SS_RESYNC_RUNNING;
				766
				767	if (ns.conn == C_DISCONNECTING && os.conn == C_STANDALONE)
				768	rv = SS_ALREADY_STANDALONE;
				769
				770	if (ns.disk > D_ATTACHING && os.disk == D_DISKLESS)
				771	rv = SS_IS_DISKLESS;
				772
				773	if (ns.conn == C_WF_CONNECTION && os.conn < C_UNCONNECTED)
				774	rv = SS_NO_NET_CONFIG;
				775
				776	if (ns.disk == D_OUTDATED && os.disk < D_OUTDATED && os.disk != D_ATTACHING)
				777	rv = SS_LOWER_THAN_OUTDATED;
				778
				779	if (ns.conn == C_DISCONNECTING && os.conn == C_UNCONNECTED)
				780	rv = SS_IN_TRANSIENT_STATE;
				781
				782	if (ns.conn == os.conn && ns.conn == C_WF_REPORT_PARAMS)
				783	rv = SS_IN_TRANSIENT_STATE;
				784
				785	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) && os.conn < C_CONNECTED)
				786	rv = SS_NEED_CONNECTION;
				787
				788	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				789	ns.conn != os.conn && os.conn > C_CONNECTED)
				790	rv = SS_RESYNC_RUNNING;
				791
				792	if ((ns.conn == C_STARTING_SYNC_S \|\| ns.conn == C_STARTING_SYNC_T) &&
				793	os.conn < C_CONNECTED)
				794	rv = SS_NEED_CONNECTION;
				795
				796	return rv;
				797	}
				798
				799	/**
				800	* sanitize_state() - Resolves implicitly necessary additional changes to a state transition
				801	* @mdev: DRBD device.
				802	* @os: old state.
				803	* @ns: new state.
				804	* @warn_sync_abort:
				805	*
				806	* When we loose connection, we have to set the state of the peers disk (pdsk)
				807	* to D_UNKNOWN. This rule and many more along those lines are in this function.
				808	*/
				809	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
				810	union drbd_state ns, int *warn_sync_abort)
				811	{
				812	enum drbd_fencing_p fp;
				813
				814	fp = FP_DONT_CARE;
				815	if (get_ldev(mdev)) {
				816	fp = mdev->ldev->dc.fencing;
				817	put_ldev(mdev);
				818	}
				819
				820	/* Disallow Network errors to configure a device's network part */
				821	if ((ns.conn >= C_TIMEOUT && ns.conn <= C_TEAR_DOWN) &&
				822	os.conn <= C_DISCONNECTING)
				823	ns.conn = os.conn;
				824
				825	/* After a network error (+C_TEAR_DOWN) only C_UNCONNECTED or C_DISCONNECTING can follow */
				826	if (os.conn >= C_TIMEOUT && os.conn <= C_TEAR_DOWN &&
				827	ns.conn != C_UNCONNECTED && ns.conn != C_DISCONNECTING)
				828	ns.conn = os.conn;
				829
				830	/* After C_DISCONNECTING only C_STANDALONE may follow */
				831	if (os.conn == C_DISCONNECTING && ns.conn != C_STANDALONE)
				832	ns.conn = os.conn;
				833
				834	if (ns.conn < C_CONNECTED) {
				835	ns.peer_isp = 0;
				836	ns.peer = R_UNKNOWN;
				837	if (ns.pdsk > D_UNKNOWN \|\| ns.pdsk < D_INCONSISTENT)
				838	ns.pdsk = D_UNKNOWN;
				839	}
				840
				841	/* Clear the aftr_isp when becoming unconfigured */
				842	if (ns.conn == C_STANDALONE && ns.disk == D_DISKLESS && ns.role == R_SECONDARY)
				843	ns.aftr_isp = 0;
				844
				845	if (ns.conn <= C_DISCONNECTING && ns.disk == D_DISKLESS)
				846	ns.pdsk = D_UNKNOWN;
				847
				848	/* Abort resync if a disk fails/detaches */
				849	if (os.conn > C_CONNECTED && ns.conn > C_CONNECTED &&
				850	(ns.disk <= D_FAILED \|\| ns.pdsk <= D_FAILED)) {
				851	if (warn_sync_abort)
				852	*warn_sync_abort = 1;
				853	ns.conn = C_CONNECTED;
				854	}
				855
				856	if (ns.conn >= C_CONNECTED &&
				857	((ns.disk == D_CONSISTENT \|\| ns.disk == D_OUTDATED) \|\|
				858	(ns.disk == D_NEGOTIATING && ns.conn == C_WF_BITMAP_T))) {
				859	switch (ns.conn) {
				860	case C_WF_BITMAP_T:
				861	case C_PAUSED_SYNC_T:
				862	ns.disk = D_OUTDATED;
				863	break;
				864	case C_CONNECTED:
				865	case C_WF_BITMAP_S:
				866	case C_SYNC_SOURCE:
				867	case C_PAUSED_SYNC_S:
				868	ns.disk = D_UP_TO_DATE;
				869	break;
				870	case C_SYNC_TARGET:
				871	ns.disk = D_INCONSISTENT;
				872	dev_warn(DEV, "Implicitly set disk state Inconsistent!\n");
				873	break;
				874	}
				875	if (os.disk == D_OUTDATED && ns.disk == D_UP_TO_DATE)
				876	dev_warn(DEV, "Implicitly set disk from Outdated to UpToDate\n");
				877	}
				878
				879	if (ns.conn >= C_CONNECTED &&
				880	(ns.pdsk == D_CONSISTENT \|\| ns.pdsk == D_OUTDATED)) {
				881	switch (ns.conn) {
				882	case C_CONNECTED:
				883	case C_WF_BITMAP_T:
				884	case C_PAUSED_SYNC_T:
				885	case C_SYNC_TARGET:
				886	ns.pdsk = D_UP_TO_DATE;
				887	break;
				888	case C_WF_BITMAP_S:
				889	case C_PAUSED_SYNC_S:
Lars Ellenberg	e0f8301	2010-04-01 15:13:19 +0200	[diff] [blame]	890	/* remap any consistent state to D_OUTDATED,
				891	* but disallow "upgrade" of not even consistent states.
				892	*/
				893	ns.pdsk =
				894	(D_DISKLESS < os.pdsk && os.pdsk < D_OUTDATED)
				895	? os.pdsk : D_OUTDATED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	896	break;
				897	case C_SYNC_SOURCE:
				898	ns.pdsk = D_INCONSISTENT;
				899	dev_warn(DEV, "Implicitly set pdsk Inconsistent!\n");
				900	break;
				901	}
				902	if (os.pdsk == D_OUTDATED && ns.pdsk == D_UP_TO_DATE)
				903	dev_warn(DEV, "Implicitly set pdsk from Outdated to UpToDate\n");
				904	}
				905
				906	/* Connection breaks down before we finished "Negotiating" */
				907	if (ns.conn < C_CONNECTED && ns.disk == D_NEGOTIATING &&
				908	get_ldev_if_state(mdev, D_NEGOTIATING)) {
				909	if (mdev->ed_uuid == mdev->ldev->md.uuid[UI_CURRENT]) {
				910	ns.disk = mdev->new_state_tmp.disk;
				911	ns.pdsk = mdev->new_state_tmp.pdsk;
				912	} else {
				913	dev_alert(DEV, "Connection lost while negotiating, no data!\n");
				914	ns.disk = D_DISKLESS;
				915	ns.pdsk = D_UNKNOWN;
				916	}
				917	put_ldev(mdev);
				918	}
				919
				920	if (fp == FP_STONITH &&
Philipp Reisner	0a49216	2009-10-21 13:08:29 +0200	[diff] [blame]	921	(ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk > D_OUTDATED) &&
				922	!(os.role == R_PRIMARY && os.conn < C_CONNECTED && os.pdsk > D_OUTDATED))
				923	ns.susp = 1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	924
				925	if (ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp) {
				926	if (ns.conn == C_SYNC_SOURCE)
				927	ns.conn = C_PAUSED_SYNC_S;
				928	if (ns.conn == C_SYNC_TARGET)
				929	ns.conn = C_PAUSED_SYNC_T;
				930	} else {
				931	if (ns.conn == C_PAUSED_SYNC_S)
				932	ns.conn = C_SYNC_SOURCE;
				933	if (ns.conn == C_PAUSED_SYNC_T)
				934	ns.conn = C_SYNC_TARGET;
				935	}
				936
				937	return ns;
				938	}
				939
				940	/* helper for __drbd_set_state */
				941	static void set_ov_position(struct drbd_conf *mdev, enum drbd_conns cs)
				942	{
				943	if (cs == C_VERIFY_T) {
				944	/* starting online verify from an arbitrary position
				945	* does not fit well into the existing protocol.
				946	* on C_VERIFY_T, we initialize ov_left and friends
				947	* implicitly in receive_DataRequest once the
				948	* first P_OV_REQUEST is received */
				949	mdev->ov_start_sector = ~(sector_t)0;
				950	} else {
				951	unsigned long bit = BM_SECT_TO_BIT(mdev->ov_start_sector);
				952	if (bit >= mdev->rs_total)
				953	mdev->ov_start_sector =
				954	BM_BIT_TO_SECT(mdev->rs_total - 1);
				955	mdev->ov_position = mdev->ov_start_sector;
				956	}
				957	}
				958
				959	/**
				960	* __drbd_set_state() - Set a new DRBD state
				961	* @mdev: DRBD device.
				962	* @ns: new state.
				963	* @flags: Flags
				964	* @done: Optional completion, that will get completed after the after_state_ch() finished
				965	*
				966	* Caller needs to hold req_lock, and global_state_lock. Do not call directly.
				967	*/
				968	int __drbd_set_state(struct drbd_conf *mdev,
				969	union drbd_state ns, enum chg_state_flags flags,
				970	struct completion *done)
				971	{
				972	union drbd_state os;
				973	int rv = SS_SUCCESS;
				974	int warn_sync_abort = 0;
				975	struct after_state_chg_work *ascw;
				976
				977	os = mdev->state;
				978
				979	ns = sanitize_state(mdev, os, ns, &warn_sync_abort);
				980
				981	if (ns.i == os.i)
				982	return SS_NOTHING_TO_DO;
				983
				984	if (!(flags & CS_HARD)) {
				985	/* pre-state-change checks ; only look at ns */
				986	/* See drbd_state_sw_errors in drbd_strings.c */
				987
				988	rv = is_valid_state(mdev, ns);
				989	if (rv < SS_SUCCESS) {
				990	/* If the old state was illegal as well, then let
				991	this happen...*/
				992
				993	if (is_valid_state(mdev, os) == rv) {
				994	dev_err(DEV, "Considering state change from bad state. "
				995	"Error would be: '%s'\n",
				996	drbd_set_st_err_str(rv));
				997	print_st(mdev, "old", os);
				998	print_st(mdev, "new", ns);
				999	rv = is_valid_state_transition(mdev, ns, os);
				1000	}
				1001	} else
				1002	rv = is_valid_state_transition(mdev, ns, os);
				1003	}
				1004
				1005	if (rv < SS_SUCCESS) {
				1006	if (flags & CS_VERBOSE)
				1007	print_st_err(mdev, os, ns, rv);
				1008	return rv;
				1009	}
				1010
				1011	if (warn_sync_abort)
				1012	dev_warn(DEV, "Resync aborted.\n");
				1013
				1014	{
				1015	char *pbp, pb[300];
				1016	pbp = pb;
				1017	*pbp = 0;
				1018	PSC(role);
				1019	PSC(peer);
				1020	PSC(conn);
				1021	PSC(disk);
				1022	PSC(pdsk);
				1023	PSC(susp);
				1024	PSC(aftr_isp);
				1025	PSC(peer_isp);
				1026	PSC(user_isp);
				1027	dev_info(DEV, "%s\n", pb);
				1028	}
				1029
				1030	/* solve the race between becoming unconfigured,
				1031	* worker doing the cleanup, and
				1032	* admin reconfiguring us:
				1033	* on (re)configure, first set CONFIG_PENDING,
				1034	* then wait for a potentially exiting worker,
				1035	* start the worker, and schedule one no_op.
				1036	* then proceed with configuration.
				1037	*/
				1038	if (ns.disk == D_DISKLESS &&
				1039	ns.conn == C_STANDALONE &&
				1040	ns.role == R_SECONDARY &&
				1041	!test_and_set_bit(CONFIG_PENDING, &mdev->flags))
				1042	set_bit(DEVICE_DYING, &mdev->flags);
				1043
				1044	mdev->state.i = ns.i;
				1045	wake_up(&mdev->misc_wait);
				1046	wake_up(&mdev->state_wait);
				1047
				1048	/* post-state-change actions */
				1049	if (os.conn >= C_SYNC_SOURCE && ns.conn <= C_CONNECTED) {
				1050	set_bit(STOP_SYNC_TIMER, &mdev->flags);
				1051	mod_timer(&mdev->resync_timer, jiffies);
				1052	}
				1053
				1054	/* aborted verify run. log the last position */
				1055	if ((os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) &&
				1056	ns.conn < C_CONNECTED) {
				1057	mdev->ov_start_sector =
				1058	BM_BIT_TO_SECT(mdev->rs_total - mdev->ov_left);
				1059	dev_info(DEV, "Online Verify reached sector %llu\n",
				1060	(unsigned long long)mdev->ov_start_sector);
				1061	}
				1062
				1063	if ((os.conn == C_PAUSED_SYNC_T \|\| os.conn == C_PAUSED_SYNC_S) &&
				1064	(ns.conn == C_SYNC_TARGET \|\| ns.conn == C_SYNC_SOURCE)) {
				1065	dev_info(DEV, "Syncer continues.\n");
				1066	mdev->rs_paused += (long)jiffies-(long)mdev->rs_mark_time;
				1067	if (ns.conn == C_SYNC_TARGET) {
				1068	if (!test_and_clear_bit(STOP_SYNC_TIMER, &mdev->flags))
				1069	mod_timer(&mdev->resync_timer, jiffies);
				1070	/* This if (!test_bit) is only needed for the case
				1071	that a device that has ceased to used its timer,
				1072	i.e. it is already in drbd_resync_finished() gets
				1073	paused and resumed. */
				1074	}
				1075	}
				1076
				1077	if ((os.conn == C_SYNC_TARGET \|\| os.conn == C_SYNC_SOURCE) &&
				1078	(ns.conn == C_PAUSED_SYNC_T \|\| ns.conn == C_PAUSED_SYNC_S)) {
				1079	dev_info(DEV, "Resync suspended\n");
				1080	mdev->rs_mark_time = jiffies;
				1081	if (ns.conn == C_PAUSED_SYNC_T)
				1082	set_bit(STOP_SYNC_TIMER, &mdev->flags);
				1083	}
				1084
				1085	if (os.conn == C_CONNECTED &&
				1086	(ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T)) {
				1087	mdev->ov_position = 0;
				1088	mdev->rs_total =
				1089	mdev->rs_mark_left = drbd_bm_bits(mdev);
				1090	if (mdev->agreed_pro_version >= 90)
				1091	set_ov_position(mdev, ns.conn);
				1092	else
				1093	mdev->ov_start_sector = 0;
				1094	mdev->ov_left = mdev->rs_total
				1095	- BM_SECT_TO_BIT(mdev->ov_position);
				1096	mdev->rs_start =
				1097	mdev->rs_mark_time = jiffies;
				1098	mdev->ov_last_oos_size = 0;
				1099	mdev->ov_last_oos_start = 0;
				1100
				1101	if (ns.conn == C_VERIFY_S) {
				1102	dev_info(DEV, "Starting Online Verify from sector %llu\n",
				1103	(unsigned long long)mdev->ov_position);
				1104	mod_timer(&mdev->resync_timer, jiffies);
				1105	}
				1106	}
				1107
				1108	if (get_ldev(mdev)) {
				1109	u32 mdf = mdev->ldev->md.flags & ~(MDF_CONSISTENT\|MDF_PRIMARY_IND\|
				1110	MDF_CONNECTED_IND\|MDF_WAS_UP_TO_DATE\|
				1111	MDF_PEER_OUT_DATED\|MDF_CRASHED_PRIMARY);
				1112
				1113	if (test_bit(CRASHED_PRIMARY, &mdev->flags))
				1114	mdf \|= MDF_CRASHED_PRIMARY;
				1115	if (mdev->state.role == R_PRIMARY \|\|
				1116	(mdev->state.pdsk < D_INCONSISTENT && mdev->state.peer == R_PRIMARY))
				1117	mdf \|= MDF_PRIMARY_IND;
				1118	if (mdev->state.conn > C_WF_REPORT_PARAMS)
				1119	mdf \|= MDF_CONNECTED_IND;
				1120	if (mdev->state.disk > D_INCONSISTENT)
				1121	mdf \|= MDF_CONSISTENT;
				1122	if (mdev->state.disk > D_OUTDATED)
				1123	mdf \|= MDF_WAS_UP_TO_DATE;
				1124	if (mdev->state.pdsk <= D_OUTDATED && mdev->state.pdsk >= D_INCONSISTENT)
				1125	mdf \|= MDF_PEER_OUT_DATED;
				1126	if (mdf != mdev->ldev->md.flags) {
				1127	mdev->ldev->md.flags = mdf;
				1128	drbd_md_mark_dirty(mdev);
				1129	}
				1130	if (os.disk < D_CONSISTENT && ns.disk >= D_CONSISTENT)
				1131	drbd_set_ed_uuid(mdev, mdev->ldev->md.uuid[UI_CURRENT]);
				1132	put_ldev(mdev);
				1133	}
				1134
				1135	/* Peer was forced D_UP_TO_DATE & R_PRIMARY, consider to resync */
				1136	if (os.disk == D_INCONSISTENT && os.pdsk == D_INCONSISTENT &&
				1137	os.peer == R_SECONDARY && ns.peer == R_PRIMARY)
				1138	set_bit(CONSIDER_RESYNC, &mdev->flags);
				1139
				1140	/* Receiver should clean up itself */
				1141	if (os.conn != C_DISCONNECTING && ns.conn == C_DISCONNECTING)
				1142	drbd_thread_stop_nowait(&mdev->receiver);
				1143
				1144	/* Now the receiver finished cleaning up itself, it should die */
				1145	if (os.conn != C_STANDALONE && ns.conn == C_STANDALONE)
				1146	drbd_thread_stop_nowait(&mdev->receiver);
				1147
				1148	/* Upon network failure, we need to restart the receiver. */
				1149	if (os.conn > C_TEAR_DOWN &&
				1150	ns.conn <= C_TEAR_DOWN && ns.conn >= C_TIMEOUT)
				1151	drbd_thread_restart_nowait(&mdev->receiver);
				1152
				1153	ascw = kmalloc(sizeof(*ascw), GFP_ATOMIC);
				1154	if (ascw) {
				1155	ascw->os = os;
				1156	ascw->ns = ns;
				1157	ascw->flags = flags;
				1158	ascw->w.cb = w_after_state_ch;
				1159	ascw->done = done;
				1160	drbd_queue_work(&mdev->data.work, &ascw->w);
				1161	} else {
				1162	dev_warn(DEV, "Could not kmalloc an ascw\n");
				1163	}
				1164
				1165	return rv;
				1166	}
				1167
				1168	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused)
				1169	{
				1170	struct after_state_chg_work *ascw =
				1171	container_of(w, struct after_state_chg_work, w);
				1172	after_state_ch(mdev, ascw->os, ascw->ns, ascw->flags);
				1173	if (ascw->flags & CS_WAIT_COMPLETE) {
				1174	D_ASSERT(ascw->done != NULL);
				1175	complete(ascw->done);
				1176	}
				1177	kfree(ascw);
				1178
				1179	return 1;
				1180	}
				1181
				1182	static void abw_start_sync(struct drbd_conf *mdev, int rv)
				1183	{
				1184	if (rv) {
				1185	dev_err(DEV, "Writing the bitmap failed not starting resync.\n");
				1186	_drbd_request_state(mdev, NS(conn, C_CONNECTED), CS_VERBOSE);
				1187	return;
				1188	}
				1189
				1190	switch (mdev->state.conn) {
				1191	case C_STARTING_SYNC_T:
				1192	_drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
				1193	break;
				1194	case C_STARTING_SYNC_S:
				1195	drbd_start_resync(mdev, C_SYNC_SOURCE);
				1196	break;
				1197	}
				1198	}
				1199
				1200	/**
				1201	* after_state_ch() - Perform after state change actions that may sleep
				1202	* @mdev: DRBD device.
				1203	* @os: old state.
				1204	* @ns: new state.
				1205	* @flags: Flags
				1206	*/
				1207	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				1208	union drbd_state ns, enum chg_state_flags flags)
				1209	{
				1210	enum drbd_fencing_p fp;
				1211
				1212	if (os.conn != C_CONNECTED && ns.conn == C_CONNECTED) {
				1213	clear_bit(CRASHED_PRIMARY, &mdev->flags);
				1214	if (mdev->p_uuid)
				1215	mdev->p_uuid[UI_FLAGS] &= ~((u64)2);
				1216	}
				1217
				1218	fp = FP_DONT_CARE;
				1219	if (get_ldev(mdev)) {
				1220	fp = mdev->ldev->dc.fencing;
				1221	put_ldev(mdev);
				1222	}
				1223
				1224	/* Inform userspace about the change... */
				1225	drbd_bcast_state(mdev, ns);
				1226
				1227	if (!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE) &&
				1228	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE))
				1229	drbd_khelper(mdev, "pri-on-incon-degr");
				1230
				1231	/* Here we have the actions that are performed after a
				1232	state change. This function might sleep */
				1233
				1234	if (fp == FP_STONITH && ns.susp) {
				1235	/* case1: The outdate peer handler is successful:
				1236	* case2: The connection was established again: */
				1237	if ((os.pdsk > D_OUTDATED && ns.pdsk <= D_OUTDATED) \|\|
				1238	(os.conn < C_CONNECTED && ns.conn >= C_CONNECTED)) {
				1239	tl_clear(mdev);
				1240	spin_lock_irq(&mdev->req_lock);
				1241	_drbd_set_state(_NS(mdev, susp, 0), CS_VERBOSE, NULL);
				1242	spin_unlock_irq(&mdev->req_lock);
				1243	}
				1244	}
				1245	/* Do not change the order of the if above and the two below... */
				1246	if (os.pdsk == D_DISKLESS && ns.pdsk > D_DISKLESS) { /* attach on the peer */
				1247	drbd_send_uuids(mdev);
				1248	drbd_send_state(mdev);
				1249	}
				1250	if (os.conn != C_WF_BITMAP_S && ns.conn == C_WF_BITMAP_S)
				1251	drbd_queue_bitmap_io(mdev, &drbd_send_bitmap, NULL, "send_bitmap (WFBitMapS)");
				1252
				1253	/* Lost contact to peer's copy of the data */
				1254	if ((os.pdsk >= D_INCONSISTENT &&
				1255	os.pdsk != D_UNKNOWN &&
				1256	os.pdsk != D_OUTDATED)
				1257	&& (ns.pdsk < D_INCONSISTENT \|\|
				1258	ns.pdsk == D_UNKNOWN \|\|
				1259	ns.pdsk == D_OUTDATED)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1260	if (get_ldev(mdev)) {
				1261	if ((ns.role == R_PRIMARY \|\| ns.peer == R_PRIMARY) &&
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1262	mdev->ldev->md.uuid[UI_BITMAP] == 0 && ns.disk >= D_UP_TO_DATE) {
				1263	drbd_uuid_new_current(mdev);
				1264	drbd_send_uuids(mdev);
				1265	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1266	put_ldev(mdev);
				1267	}
				1268	}
				1269
				1270	if (ns.pdsk < D_INCONSISTENT && get_ldev(mdev)) {
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1271	if (ns.peer == R_PRIMARY && mdev->ldev->md.uuid[UI_BITMAP] == 0)
				1272	drbd_uuid_new_current(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1273
				1274	/* D_DISKLESS Peer becomes secondary */
				1275	if (os.peer == R_PRIMARY && ns.peer == R_SECONDARY)
				1276	drbd_al_to_on_disk_bm(mdev);
				1277	put_ldev(mdev);
				1278	}
				1279
				1280	/* Last part of the attaching process ... */
				1281	if (ns.conn >= C_CONNECTED &&
				1282	os.disk == D_ATTACHING && ns.disk == D_NEGOTIATING) {
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1283	drbd_send_sizes(mdev, 0, 0); /* to start sync... */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1284	drbd_send_uuids(mdev);
				1285	drbd_send_state(mdev);
				1286	}
				1287
				1288	/* We want to pause/continue resync, tell peer. */
				1289	if (ns.conn >= C_CONNECTED &&
				1290	((os.aftr_isp != ns.aftr_isp) \|\|
				1291	(os.user_isp != ns.user_isp)))
				1292	drbd_send_state(mdev);
				1293
				1294	/* In case one of the isp bits got set, suspend other devices. */
				1295	if ((!os.aftr_isp && !os.peer_isp && !os.user_isp) &&
				1296	(ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp))
				1297	suspend_other_sg(mdev);
				1298
				1299	/* Make sure the peer gets informed about eventual state
				1300	changes (ISP bits) while we were in WFReportParams. */
				1301	if (os.conn == C_WF_REPORT_PARAMS && ns.conn >= C_CONNECTED)
				1302	drbd_send_state(mdev);
				1303
				1304	/* We are in the progress to start a full sync... */
				1305	if ((os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				1306	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S))
				1307	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, &abw_start_sync, "set_n_write from StartingSync");
				1308
				1309	/* We are invalidating our self... */
				1310	if (os.conn < C_CONNECTED && ns.conn < C_CONNECTED &&
				1311	os.disk > D_INCONSISTENT && ns.disk == D_INCONSISTENT)
				1312	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, NULL, "set_n_write from invalidate");
				1313
				1314	if (os.disk > D_FAILED && ns.disk == D_FAILED) {
				1315	enum drbd_io_error_p eh;
				1316
				1317	eh = EP_PASS_ON;
				1318	if (get_ldev_if_state(mdev, D_FAILED)) {
				1319	eh = mdev->ldev->dc.on_io_error;
				1320	put_ldev(mdev);
				1321	}
				1322
				1323	drbd_rs_cancel_all(mdev);
				1324	/* since get_ldev() only works as long as disk>=D_INCONSISTENT,
				1325	and it is D_DISKLESS here, local_cnt can only go down, it can
				1326	not increase... It will reach zero */
				1327	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
				1328	mdev->rs_total = 0;
				1329	mdev->rs_failed = 0;
				1330	atomic_set(&mdev->rs_pending_cnt, 0);
				1331
				1332	spin_lock_irq(&mdev->req_lock);
				1333	_drbd_set_state(_NS(mdev, disk, D_DISKLESS), CS_HARD, NULL);
				1334	spin_unlock_irq(&mdev->req_lock);
				1335
				1336	if (eh == EP_CALL_HELPER)
				1337	drbd_khelper(mdev, "local-io-error");
				1338	}
				1339
				1340	if (os.disk > D_DISKLESS && ns.disk == D_DISKLESS) {
				1341
				1342	if (os.disk == D_FAILED) /* && ns.disk == D_DISKLESS*/ {
				1343	if (drbd_send_state(mdev))
				1344	dev_warn(DEV, "Notified peer that my disk is broken.\n");
				1345	else
				1346	dev_err(DEV, "Sending state in drbd_io_error() failed\n");
				1347	}
				1348
Philipp Reisner	0a6dbf2	2009-12-28 16:58:38 +0100	[diff] [blame]	1349	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1350	lc_destroy(mdev->resync);
				1351	mdev->resync = NULL;
				1352	lc_destroy(mdev->act_log);
				1353	mdev->act_log = NULL;
				1354	__no_warn(local,
				1355	drbd_free_bc(mdev->ldev);
				1356	mdev->ldev = NULL;);
				1357
				1358	if (mdev->md_io_tmpp)
				1359	__free_page(mdev->md_io_tmpp);
				1360	}
				1361
				1362	/* Disks got bigger while they were detached */
				1363	if (ns.disk > D_NEGOTIATING && ns.pdsk > D_NEGOTIATING &&
				1364	test_and_clear_bit(RESYNC_AFTER_NEG, &mdev->flags)) {
				1365	if (ns.conn == C_CONNECTED)
				1366	resync_after_online_grow(mdev);
				1367	}
				1368
				1369	/* A resync finished or aborted, wake paused devices... */
				1370	if ((os.conn > C_CONNECTED && ns.conn <= C_CONNECTED) \|\|
				1371	(os.peer_isp && !ns.peer_isp) \|\|
				1372	(os.user_isp && !ns.user_isp))
				1373	resume_next_sg(mdev);
				1374
				1375	/* Upon network connection, we need to start the receiver */
				1376	if (os.conn == C_STANDALONE && ns.conn == C_UNCONNECTED)
				1377	drbd_thread_start(&mdev->receiver);
				1378
				1379	/* Terminate worker thread if we are unconfigured - it will be
				1380	restarted as needed... */
				1381	if (ns.disk == D_DISKLESS &&
				1382	ns.conn == C_STANDALONE &&
				1383	ns.role == R_SECONDARY) {
				1384	if (os.aftr_isp != ns.aftr_isp)
				1385	resume_next_sg(mdev);
				1386	/* set in __drbd_set_state, unless CONFIG_PENDING was set */
				1387	if (test_bit(DEVICE_DYING, &mdev->flags))
				1388	drbd_thread_stop_nowait(&mdev->worker);
				1389	}
				1390
				1391	drbd_md_sync(mdev);
				1392	}
				1393
				1394
				1395	static int drbd_thread_setup(void *arg)
				1396	{
				1397	struct drbd_thread thi = (struct drbd_thread ) arg;
				1398	struct drbd_conf *mdev = thi->mdev;
				1399	unsigned long flags;
				1400	int retval;
				1401
				1402	restart:
				1403	retval = thi->function(thi);
				1404
				1405	spin_lock_irqsave(&thi->t_lock, flags);
				1406
				1407	/* if the receiver has been "Exiting", the last thing it did
				1408	* was set the conn state to "StandAlone",
				1409	* if now a re-connect request comes in, conn state goes C_UNCONNECTED,
				1410	* and receiver thread will be "started".
				1411	* drbd_thread_start needs to set "Restarting" in that case.
				1412	* t_state check and assignment needs to be within the same spinlock,
				1413	* so either thread_start sees Exiting, and can remap to Restarting,
				1414	* or thread_start see None, and can proceed as normal.
				1415	*/
				1416
				1417	if (thi->t_state == Restarting) {
				1418	dev_info(DEV, "Restarting %s\n", current->comm);
				1419	thi->t_state = Running;
				1420	spin_unlock_irqrestore(&thi->t_lock, flags);
				1421	goto restart;
				1422	}
				1423
				1424	thi->task = NULL;
				1425	thi->t_state = None;
				1426	smp_mb();
				1427	complete(&thi->stop);
				1428	spin_unlock_irqrestore(&thi->t_lock, flags);
				1429
				1430	dev_info(DEV, "Terminating %s\n", current->comm);
				1431
				1432	/* Release mod reference taken when thread was started */
				1433	module_put(THIS_MODULE);
				1434	return retval;
				1435	}
				1436
				1437	static void drbd_thread_init(struct drbd_conf mdev, struct drbd_thread thi,
				1438	int (func) (struct drbd_thread ))
				1439	{
				1440	spin_lock_init(&thi->t_lock);
				1441	thi->task = NULL;
				1442	thi->t_state = None;
				1443	thi->function = func;
				1444	thi->mdev = mdev;
				1445	}
				1446
				1447	int drbd_thread_start(struct drbd_thread *thi)
				1448	{
				1449	struct drbd_conf *mdev = thi->mdev;
				1450	struct task_struct *nt;
				1451	unsigned long flags;
				1452
				1453	const char *me =
				1454	thi == &mdev->receiver ? "receiver" :
				1455	thi == &mdev->asender ? "asender" :
				1456	thi == &mdev->worker ? "worker" : "NONSENSE";
				1457
				1458	/* is used from state engine doing drbd_thread_stop_nowait,
				1459	* while holding the req lock irqsave */
				1460	spin_lock_irqsave(&thi->t_lock, flags);
				1461
				1462	switch (thi->t_state) {
				1463	case None:
				1464	dev_info(DEV, "Starting %s thread (from %s [%d])\n",
				1465	me, current->comm, current->pid);
				1466
				1467	/* Get ref on module for thread - this is released when thread exits */
				1468	if (!try_module_get(THIS_MODULE)) {
				1469	dev_err(DEV, "Failed to get module reference in drbd_thread_start\n");
				1470	spin_unlock_irqrestore(&thi->t_lock, flags);
				1471	return FALSE;
				1472	}
				1473
				1474	init_completion(&thi->stop);
				1475	D_ASSERT(thi->task == NULL);
				1476	thi->reset_cpu_mask = 1;
				1477	thi->t_state = Running;
				1478	spin_unlock_irqrestore(&thi->t_lock, flags);
				1479	flush_signals(current); /* otherw. may get -ERESTARTNOINTR */
				1480
				1481	nt = kthread_create(drbd_thread_setup, (void *) thi,
				1482	"drbd%d_%s", mdev_to_minor(mdev), me);
				1483
				1484	if (IS_ERR(nt)) {
				1485	dev_err(DEV, "Couldn't start thread\n");
				1486
				1487	module_put(THIS_MODULE);
				1488	return FALSE;
				1489	}
				1490	spin_lock_irqsave(&thi->t_lock, flags);
				1491	thi->task = nt;
				1492	thi->t_state = Running;
				1493	spin_unlock_irqrestore(&thi->t_lock, flags);
				1494	wake_up_process(nt);
				1495	break;
				1496	case Exiting:
				1497	thi->t_state = Restarting;
				1498	dev_info(DEV, "Restarting %s thread (from %s [%d])\n",
				1499	me, current->comm, current->pid);
				1500	/* fall through */
				1501	case Running:
				1502	case Restarting:
				1503	default:
				1504	spin_unlock_irqrestore(&thi->t_lock, flags);
				1505	break;
				1506	}
				1507
				1508	return TRUE;
				1509	}
				1510
				1511
				1512	void _drbd_thread_stop(struct drbd_thread *thi, int restart, int wait)
				1513	{
				1514	unsigned long flags;
				1515
				1516	enum drbd_thread_state ns = restart ? Restarting : Exiting;
				1517
				1518	/* may be called from state engine, holding the req lock irqsave */
				1519	spin_lock_irqsave(&thi->t_lock, flags);
				1520
				1521	if (thi->t_state == None) {
				1522	spin_unlock_irqrestore(&thi->t_lock, flags);
				1523	if (restart)
				1524	drbd_thread_start(thi);
				1525	return;
				1526	}
				1527
				1528	if (thi->t_state != ns) {
				1529	if (thi->task == NULL) {
				1530	spin_unlock_irqrestore(&thi->t_lock, flags);
				1531	return;
				1532	}
				1533
				1534	thi->t_state = ns;
				1535	smp_mb();
				1536	init_completion(&thi->stop);
				1537	if (thi->task != current)
				1538	force_sig(DRBD_SIGKILL, thi->task);
				1539
				1540	}
				1541
				1542	spin_unlock_irqrestore(&thi->t_lock, flags);
				1543
				1544	if (wait)
				1545	wait_for_completion(&thi->stop);
				1546	}
				1547
				1548	#ifdef CONFIG_SMP
				1549	/**
				1550	* drbd_calc_cpu_mask() - Generate CPU masks, spread over all CPUs
				1551	* @mdev: DRBD device.
				1552	*
				1553	* Forces all threads of a device onto the same CPU. This is beneficial for
				1554	* DRBD's performance. May be overwritten by user's configuration.
				1555	*/
				1556	void drbd_calc_cpu_mask(struct drbd_conf *mdev)
				1557	{
				1558	int ord, cpu;
				1559
				1560	/* user override. */
				1561	if (cpumask_weight(mdev->cpu_mask))
				1562	return;
				1563
				1564	ord = mdev_to_minor(mdev) % cpumask_weight(cpu_online_mask);
				1565	for_each_online_cpu(cpu) {
				1566	if (ord-- == 0) {
				1567	cpumask_set_cpu(cpu, mdev->cpu_mask);
				1568	return;
				1569	}
				1570	}
				1571	/* should not be reached */
				1572	cpumask_setall(mdev->cpu_mask);
				1573	}
				1574
				1575	/**
				1576	* drbd_thread_current_set_cpu() - modifies the cpu mask of the _current_ thread
				1577	* @mdev: DRBD device.
				1578	*
				1579	* call in the "main loop" of _all_ threads, no need for any mutex, current won't die
				1580	* prematurely.
				1581	*/
				1582	void drbd_thread_current_set_cpu(struct drbd_conf *mdev)
				1583	{
				1584	struct task_struct *p = current;
				1585	struct drbd_thread *thi =
				1586	p == mdev->asender.task ? &mdev->asender :
				1587	p == mdev->receiver.task ? &mdev->receiver :
				1588	p == mdev->worker.task ? &mdev->worker :
				1589	NULL;
				1590	ERR_IF(thi == NULL)
				1591	return;
				1592	if (!thi->reset_cpu_mask)
				1593	return;
				1594	thi->reset_cpu_mask = 0;
				1595	set_cpus_allowed_ptr(p, mdev->cpu_mask);
				1596	}
				1597	#endif
				1598
				1599	/* the appropriate socket mutex must be held already */
				1600	int _drbd_send_cmd(struct drbd_conf mdev, struct socket sock,
				1601	enum drbd_packets cmd, struct p_header *h,
				1602	size_t size, unsigned msg_flags)
				1603	{
				1604	int sent, ok;
				1605
				1606	ERR_IF(!h) return FALSE;
				1607	ERR_IF(!size) return FALSE;
				1608
				1609	h->magic = BE_DRBD_MAGIC;
				1610	h->command = cpu_to_be16(cmd);
				1611	h->length = cpu_to_be16(size-sizeof(struct p_header));
				1612
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1613	sent = drbd_send(mdev, sock, h, size, msg_flags);
				1614
				1615	ok = (sent == size);
				1616	if (!ok)
				1617	dev_err(DEV, "short sent %s size=%d sent=%d\n",
				1618	cmdname(cmd), (int)size, sent);
				1619	return ok;
				1620	}
				1621
				1622	/* don't pass the socket. we may only look at it
				1623	* when we hold the appropriate socket mutex.
				1624	*/
				1625	int drbd_send_cmd(struct drbd_conf *mdev, int use_data_socket,
				1626	enum drbd_packets cmd, struct p_header *h, size_t size)
				1627	{
				1628	int ok = 0;
				1629	struct socket *sock;
				1630
				1631	if (use_data_socket) {
				1632	mutex_lock(&mdev->data.mutex);
				1633	sock = mdev->data.socket;
				1634	} else {
				1635	mutex_lock(&mdev->meta.mutex);
				1636	sock = mdev->meta.socket;
				1637	}
				1638
				1639	/* drbd_disconnect() could have called drbd_free_sock()
				1640	* while we were waiting in down()... */
				1641	if (likely(sock != NULL))
				1642	ok = _drbd_send_cmd(mdev, sock, cmd, h, size, 0);
				1643
				1644	if (use_data_socket)
				1645	mutex_unlock(&mdev->data.mutex);
				1646	else
				1647	mutex_unlock(&mdev->meta.mutex);
				1648	return ok;
				1649	}
				1650
				1651	int drbd_send_cmd2(struct drbd_conf mdev, enum drbd_packets cmd, char data,
				1652	size_t size)
				1653	{
				1654	struct p_header h;
				1655	int ok;
				1656
				1657	h.magic = BE_DRBD_MAGIC;
				1658	h.command = cpu_to_be16(cmd);
				1659	h.length = cpu_to_be16(size);
				1660
				1661	if (!drbd_get_data_sock(mdev))
				1662	return 0;
				1663
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1664	ok = (sizeof(h) ==
				1665	drbd_send(mdev, mdev->data.socket, &h, sizeof(h), 0));
				1666	ok = ok && (size ==
				1667	drbd_send(mdev, mdev->data.socket, data, size, 0));
				1668
				1669	drbd_put_data_sock(mdev);
				1670
				1671	return ok;
				1672	}
				1673
				1674	int drbd_send_sync_param(struct drbd_conf mdev, struct syncer_conf sc)
				1675	{
				1676	struct p_rs_param_89 *p;
				1677	struct socket *sock;
				1678	int size, rv;
				1679	const int apv = mdev->agreed_pro_version;
				1680
				1681	size = apv <= 87 ? sizeof(struct p_rs_param)
				1682	: apv == 88 ? sizeof(struct p_rs_param)
				1683	+ strlen(mdev->sync_conf.verify_alg) + 1
				1684	: /* 89 */ sizeof(struct p_rs_param_89);
				1685
				1686	/* used from admin command context and receiver/worker context.
				1687	* to avoid kmalloc, grab the socket right here,
				1688	* then use the pre-allocated sbuf there */
				1689	mutex_lock(&mdev->data.mutex);
				1690	sock = mdev->data.socket;
				1691
				1692	if (likely(sock != NULL)) {
				1693	enum drbd_packets cmd = apv >= 89 ? P_SYNC_PARAM89 : P_SYNC_PARAM;
				1694
				1695	p = &mdev->data.sbuf.rs_param_89;
				1696
				1697	/* initialize verify_alg and csums_alg */
				1698	memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
				1699
				1700	p->rate = cpu_to_be32(sc->rate);
				1701
				1702	if (apv >= 88)
				1703	strcpy(p->verify_alg, mdev->sync_conf.verify_alg);
				1704	if (apv >= 89)
				1705	strcpy(p->csums_alg, mdev->sync_conf.csums_alg);
				1706
				1707	rv = _drbd_send_cmd(mdev, sock, cmd, &p->head, size, 0);
				1708	} else
				1709	rv = 0; /* not ok */
				1710
				1711	mutex_unlock(&mdev->data.mutex);
				1712
				1713	return rv;
				1714	}
				1715
				1716	int drbd_send_protocol(struct drbd_conf *mdev)
				1717	{
				1718	struct p_protocol *p;
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1719	int size, cf, rv;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1720
				1721	size = sizeof(struct p_protocol);
				1722
				1723	if (mdev->agreed_pro_version >= 87)
				1724	size += strlen(mdev->net_conf->integrity_alg) + 1;
				1725
				1726	/* we must not recurse into our own queue,
				1727	* as that is blocked during handshake */
				1728	p = kmalloc(size, GFP_NOIO);
				1729	if (p == NULL)
				1730	return 0;
				1731
				1732	p->protocol = cpu_to_be32(mdev->net_conf->wire_protocol);
				1733	p->after_sb_0p = cpu_to_be32(mdev->net_conf->after_sb_0p);
				1734	p->after_sb_1p = cpu_to_be32(mdev->net_conf->after_sb_1p);
				1735	p->after_sb_2p = cpu_to_be32(mdev->net_conf->after_sb_2p);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1736	p->two_primaries = cpu_to_be32(mdev->net_conf->two_primaries);
				1737
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1738	cf = 0;
				1739	if (mdev->net_conf->want_lose)
				1740	cf \|= CF_WANT_LOSE;
				1741	if (mdev->net_conf->dry_run) {
				1742	if (mdev->agreed_pro_version >= 92)
				1743	cf \|= CF_DRY_RUN;
				1744	else {
				1745	dev_err(DEV, "--dry-run is not supported by peer");
Dan Carpenter	7ac314c	2010-04-22 14:27:23 +0200	[diff] [blame]	1746	kfree(p);
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1747	return 0;
				1748	}
				1749	}
				1750	p->conn_flags = cpu_to_be32(cf);
				1751
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1752	if (mdev->agreed_pro_version >= 87)
				1753	strcpy(p->integrity_alg, mdev->net_conf->integrity_alg);
				1754
				1755	rv = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_PROTOCOL,
				1756	(struct p_header *)p, size);
				1757	kfree(p);
				1758	return rv;
				1759	}
				1760
				1761	int _drbd_send_uuids(struct drbd_conf *mdev, u64 uuid_flags)
				1762	{
				1763	struct p_uuids p;
				1764	int i;
				1765
				1766	if (!get_ldev_if_state(mdev, D_NEGOTIATING))
				1767	return 1;
				1768
				1769	for (i = UI_CURRENT; i < UI_SIZE; i++)
				1770	p.uuid[i] = mdev->ldev ? cpu_to_be64(mdev->ldev->md.uuid[i]) : 0;
				1771
				1772	mdev->comm_bm_set = drbd_bm_total_weight(mdev);
				1773	p.uuid[UI_SIZE] = cpu_to_be64(mdev->comm_bm_set);
				1774	uuid_flags \|= mdev->net_conf->want_lose ? 1 : 0;
				1775	uuid_flags \|= test_bit(CRASHED_PRIMARY, &mdev->flags) ? 2 : 0;
				1776	uuid_flags \|= mdev->new_state_tmp.disk == D_INCONSISTENT ? 4 : 0;
				1777	p.uuid[UI_FLAGS] = cpu_to_be64(uuid_flags);
				1778
				1779	put_ldev(mdev);
				1780
				1781	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_UUIDS,
				1782	(struct p_header *)&p, sizeof(p));
				1783	}
				1784
				1785	int drbd_send_uuids(struct drbd_conf *mdev)
				1786	{
				1787	return _drbd_send_uuids(mdev, 0);
				1788	}
				1789
				1790	int drbd_send_uuids_skip_initial_sync(struct drbd_conf *mdev)
				1791	{
				1792	return _drbd_send_uuids(mdev, 8);
				1793	}
				1794
				1795
				1796	int drbd_send_sync_uuid(struct drbd_conf *mdev, u64 val)
				1797	{
				1798	struct p_rs_uuid p;
				1799
				1800	p.uuid = cpu_to_be64(val);
				1801
				1802	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SYNC_UUID,
				1803	(struct p_header *)&p, sizeof(p));
				1804	}
				1805
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1806	int drbd_send_sizes(struct drbd_conf *mdev, int trigger_reply, enum dds_flags flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1807	{
				1808	struct p_sizes p;
				1809	sector_t d_size, u_size;
				1810	int q_order_type;
				1811	int ok;
				1812
				1813	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1814	D_ASSERT(mdev->ldev->backing_bdev);
				1815	d_size = drbd_get_max_capacity(mdev->ldev);
				1816	u_size = mdev->ldev->dc.disk_size;
				1817	q_order_type = drbd_queue_order_type(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1818	put_ldev(mdev);
				1819	} else {
				1820	d_size = 0;
				1821	u_size = 0;
				1822	q_order_type = QUEUE_ORDERED_NONE;
				1823	}
				1824
				1825	p.d_size = cpu_to_be64(d_size);
				1826	p.u_size = cpu_to_be64(u_size);
				1827	p.c_size = cpu_to_be64(trigger_reply ? 0 : drbd_get_capacity(mdev->this_bdev));
				1828	p.max_segment_size = cpu_to_be32(queue_max_segment_size(mdev->rq_queue));
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1829	p.queue_order_type = cpu_to_be16(q_order_type);
				1830	p.dds_flags = cpu_to_be16(flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1831
				1832	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SIZES,
				1833	(struct p_header *)&p, sizeof(p));
				1834	return ok;
				1835	}
				1836
				1837	/**
				1838	* drbd_send_state() - Sends the drbd state to the peer
				1839	* @mdev: DRBD device.
				1840	*/
				1841	int drbd_send_state(struct drbd_conf *mdev)
				1842	{
				1843	struct socket *sock;
				1844	struct p_state p;
				1845	int ok = 0;
				1846
				1847	/* Grab state lock so we wont send state if we're in the middle
				1848	* of a cluster wide state change on another thread */
				1849	drbd_state_lock(mdev);
				1850
				1851	mutex_lock(&mdev->data.mutex);
				1852
				1853	p.state = cpu_to_be32(mdev->state.i); /* Within the send mutex */
				1854	sock = mdev->data.socket;
				1855
				1856	if (likely(sock != NULL)) {
				1857	ok = _drbd_send_cmd(mdev, sock, P_STATE,
				1858	(struct p_header *)&p, sizeof(p), 0);
				1859	}
				1860
				1861	mutex_unlock(&mdev->data.mutex);
				1862
				1863	drbd_state_unlock(mdev);
				1864	return ok;
				1865	}
				1866
				1867	int drbd_send_state_req(struct drbd_conf *mdev,
				1868	union drbd_state mask, union drbd_state val)
				1869	{
				1870	struct p_req_state p;
				1871
				1872	p.mask = cpu_to_be32(mask.i);
				1873	p.val = cpu_to_be32(val.i);
				1874
				1875	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_STATE_CHG_REQ,
				1876	(struct p_header *)&p, sizeof(p));
				1877	}
				1878
				1879	int drbd_send_sr_reply(struct drbd_conf *mdev, int retcode)
				1880	{
				1881	struct p_req_state_reply p;
				1882
				1883	p.retcode = cpu_to_be32(retcode);
				1884
				1885	return drbd_send_cmd(mdev, USE_META_SOCKET, P_STATE_CHG_REPLY,
				1886	(struct p_header *)&p, sizeof(p));
				1887	}
				1888
				1889	int fill_bitmap_rle_bits(struct drbd_conf *mdev,
				1890	struct p_compressed_bm *p,
				1891	struct bm_xfer_ctx *c)
				1892	{
				1893	struct bitstream bs;
				1894	unsigned long plain_bits;
				1895	unsigned long tmp;
				1896	unsigned long rl;
				1897	unsigned len;
				1898	unsigned toggle;
				1899	int bits;
				1900
				1901	/* may we use this feature? */
				1902	if ((mdev->sync_conf.use_rle == 0) \|\|
				1903	(mdev->agreed_pro_version < 90))
				1904	return 0;
				1905
				1906	if (c->bit_offset >= c->bm_bits)
				1907	return 0; /* nothing to do. */
				1908
				1909	/* use at most thus many bytes */
				1910	bitstream_init(&bs, p->code, BM_PACKET_VLI_BYTES_MAX, 0);
				1911	memset(p->code, 0, BM_PACKET_VLI_BYTES_MAX);
				1912	/* plain bits covered in this code string */
				1913	plain_bits = 0;
				1914
				1915	/* p->encoding & 0x80 stores whether the first run length is set.
				1916	* bit offset is implicit.
				1917	* start with toggle == 2 to be able to tell the first iteration */
				1918	toggle = 2;
				1919
				1920	/* see how much plain bits we can stuff into one packet
				1921	* using RLE and VLI. */
				1922	do {
				1923	tmp = (toggle == 0) ? _drbd_bm_find_next_zero(mdev, c->bit_offset)
				1924	: _drbd_bm_find_next(mdev, c->bit_offset);
				1925	if (tmp == -1UL)
				1926	tmp = c->bm_bits;
				1927	rl = tmp - c->bit_offset;
				1928
				1929	if (toggle == 2) { /* first iteration */
				1930	if (rl == 0) {
				1931	/* the first checked bit was set,
				1932	* store start value, */
				1933	DCBP_set_start(p, 1);
				1934	/* but skip encoding of zero run length */
				1935	toggle = !toggle;
				1936	continue;
				1937	}
				1938	DCBP_set_start(p, 0);
				1939	}
				1940
				1941	/* paranoia: catch zero runlength.
				1942	* can only happen if bitmap is modified while we scan it. */
				1943	if (rl == 0) {
				1944	dev_err(DEV, "unexpected zero runlength while encoding bitmap "
				1945	"t:%u bo:%lu\n", toggle, c->bit_offset);
				1946	return -1;
				1947	}
				1948
				1949	bits = vli_encode_bits(&bs, rl);
				1950	if (bits == -ENOBUFS) /* buffer full */
				1951	break;
				1952	if (bits <= 0) {
				1953	dev_err(DEV, "error while encoding bitmap: %d\n", bits);
				1954	return 0;
				1955	}
				1956
				1957	toggle = !toggle;
				1958	plain_bits += rl;
				1959	c->bit_offset = tmp;
				1960	} while (c->bit_offset < c->bm_bits);
				1961
				1962	len = bs.cur.b - p->code + !!bs.cur.bit;
				1963
				1964	if (plain_bits < (len << 3)) {
				1965	/* incompressible with this method.
				1966	* we need to rewind both word and bit position. */
				1967	c->bit_offset -= plain_bits;
				1968	bm_xfer_ctx_bit_to_word_offset(c);
				1969	c->bit_offset = c->word_offset * BITS_PER_LONG;
				1970	return 0;
				1971	}
				1972
				1973	/* RLE + VLI was able to compress it just fine.
				1974	* update c->word_offset. */
				1975	bm_xfer_ctx_bit_to_word_offset(c);
				1976
				1977	/* store pad_bits */
				1978	DCBP_set_pad_bits(p, (8 - bs.cur.bit) & 0x7);
				1979
				1980	return len;
				1981	}
				1982
				1983	enum { OK, FAILED, DONE }
				1984	send_bitmap_rle_or_plain(struct drbd_conf *mdev,
				1985	struct p_header h, struct bm_xfer_ctx c)
				1986	{
				1987	struct p_compressed_bm p = (void)h;
				1988	unsigned long num_words;
				1989	int len;
				1990	int ok;
				1991
				1992	len = fill_bitmap_rle_bits(mdev, p, c);
				1993
				1994	if (len < 0)
				1995	return FAILED;
				1996
				1997	if (len) {
				1998	DCBP_set_code(p, RLE_VLI_Bits);
				1999	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_COMPRESSED_BITMAP, h,
				2000	sizeof(*p) + len, 0);
				2001
				2002	c->packets[0]++;
				2003	c->bytes[0] += sizeof(*p) + len;
				2004
				2005	if (c->bit_offset >= c->bm_bits)
				2006	len = 0; /* DONE */
				2007	} else {
				2008	/* was not compressible.
				2009	* send a buffer full of plain text bits instead. */
				2010	num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
				2011	len = num_words * sizeof(long);
				2012	if (len)
				2013	drbd_bm_get_lel(mdev, c->word_offset, num_words, (unsigned long*)h->payload);
				2014	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BITMAP,
				2015	h, sizeof(struct p_header) + len, 0);
				2016	c->word_offset += num_words;
				2017	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2018
				2019	c->packets[1]++;
				2020	c->bytes[1] += sizeof(struct p_header) + len;
				2021
				2022	if (c->bit_offset > c->bm_bits)
				2023	c->bit_offset = c->bm_bits;
				2024	}
				2025	ok = ok ? ((len == 0) ? DONE : OK) : FAILED;
				2026
				2027	if (ok == DONE)
				2028	INFO_bm_xfer_stats(mdev, "send", c);
				2029	return ok;
				2030	}
				2031
				2032	/* See the comment at receive_bitmap() */
				2033	int _drbd_send_bitmap(struct drbd_conf *mdev)
				2034	{
				2035	struct bm_xfer_ctx c;
				2036	struct p_header *p;
				2037	int ret;
				2038
				2039	ERR_IF(!mdev->bitmap) return FALSE;
				2040
				2041	/* maybe we should use some per thread scratch page,
				2042	* and allocate that during initial device creation? */
				2043	p = (struct p_header *) __get_free_page(GFP_NOIO);
				2044	if (!p) {
				2045	dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
				2046	return FALSE;
				2047	}
				2048
				2049	if (get_ldev(mdev)) {
				2050	if (drbd_md_test_flag(mdev->ldev, MDF_FULL_SYNC)) {
				2051	dev_info(DEV, "Writing the whole bitmap, MDF_FullSync was set.\n");
				2052	drbd_bm_set_all(mdev);
				2053	if (drbd_bm_write(mdev)) {
				2054	/* write_bm did fail! Leave full sync flag set in Meta P_DATA
				2055	* but otherwise process as per normal - need to tell other
				2056	* side that a full resync is required! */
				2057	dev_err(DEV, "Failed to write bitmap to disk!\n");
				2058	} else {
				2059	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				2060	drbd_md_sync(mdev);
				2061	}
				2062	}
				2063	put_ldev(mdev);
				2064	}
				2065
				2066	c = (struct bm_xfer_ctx) {
				2067	.bm_bits = drbd_bm_bits(mdev),
				2068	.bm_words = drbd_bm_words(mdev),
				2069	};
				2070
				2071	do {
				2072	ret = send_bitmap_rle_or_plain(mdev, p, &c);
				2073	} while (ret == OK);
				2074
				2075	free_page((unsigned long) p);
				2076	return (ret == DONE);
				2077	}
				2078
				2079	int drbd_send_bitmap(struct drbd_conf *mdev)
				2080	{
				2081	int err;
				2082
				2083	if (!drbd_get_data_sock(mdev))
				2084	return -1;
				2085	err = !_drbd_send_bitmap(mdev);
				2086	drbd_put_data_sock(mdev);
				2087	return err;
				2088	}
				2089
				2090	int drbd_send_b_ack(struct drbd_conf *mdev, u32 barrier_nr, u32 set_size)
				2091	{
				2092	int ok;
				2093	struct p_barrier_ack p;
				2094
				2095	p.barrier = barrier_nr;
				2096	p.set_size = cpu_to_be32(set_size);
				2097
				2098	if (mdev->state.conn < C_CONNECTED)
				2099	return FALSE;
				2100	ok = drbd_send_cmd(mdev, USE_META_SOCKET, P_BARRIER_ACK,
				2101	(struct p_header *)&p, sizeof(p));
				2102	return ok;
				2103	}
				2104
				2105	/**
				2106	* _drbd_send_ack() - Sends an ack packet
				2107	* @mdev: DRBD device.
				2108	* @cmd: Packet command code.
				2109	* @sector: sector, needs to be in big endian byte order
				2110	* @blksize: size in byte, needs to be in big endian byte order
				2111	* @block_id: Id, big endian byte order
				2112	*/
				2113	static int _drbd_send_ack(struct drbd_conf *mdev, enum drbd_packets cmd,
				2114	u64 sector,
				2115	u32 blksize,
				2116	u64 block_id)
				2117	{
				2118	int ok;
				2119	struct p_block_ack p;
				2120
				2121	p.sector = sector;
				2122	p.block_id = block_id;
				2123	p.blksize = blksize;
				2124	p.seq_num = cpu_to_be32(atomic_add_return(1, &mdev->packet_seq));
				2125
				2126	if (!mdev->meta.socket \|\| mdev->state.conn < C_CONNECTED)
				2127	return FALSE;
				2128	ok = drbd_send_cmd(mdev, USE_META_SOCKET, cmd,
				2129	(struct p_header *)&p, sizeof(p));
				2130	return ok;
				2131	}
				2132
				2133	int drbd_send_ack_dp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2134	struct p_data *dp)
				2135	{
				2136	const int header_size = sizeof(struct p_data)
				2137	- sizeof(struct p_header);
				2138	int data_size = ((struct p_header *)dp)->length - header_size;
				2139
				2140	return _drbd_send_ack(mdev, cmd, dp->sector, cpu_to_be32(data_size),
				2141	dp->block_id);
				2142	}
				2143
				2144	int drbd_send_ack_rp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2145	struct p_block_req *rp)
				2146	{
				2147	return _drbd_send_ack(mdev, cmd, rp->sector, rp->blksize, rp->block_id);
				2148	}
				2149
				2150	/**
				2151	* drbd_send_ack() - Sends an ack packet
				2152	* @mdev: DRBD device.
				2153	* @cmd: Packet command code.
				2154	* @e: Epoch entry.
				2155	*/
				2156	int drbd_send_ack(struct drbd_conf *mdev,
				2157	enum drbd_packets cmd, struct drbd_epoch_entry *e)
				2158	{
				2159	return _drbd_send_ack(mdev, cmd,
				2160	cpu_to_be64(e->sector),
				2161	cpu_to_be32(e->size),
				2162	e->block_id);
				2163	}
				2164
				2165	/* This function misuses the block_id field to signal if the blocks
				2166	* are is sync or not. */
				2167	int drbd_send_ack_ex(struct drbd_conf *mdev, enum drbd_packets cmd,
				2168	sector_t sector, int blksize, u64 block_id)
				2169	{
				2170	return _drbd_send_ack(mdev, cmd,
				2171	cpu_to_be64(sector),
				2172	cpu_to_be32(blksize),
				2173	cpu_to_be64(block_id));
				2174	}
				2175
				2176	int drbd_send_drequest(struct drbd_conf *mdev, int cmd,
				2177	sector_t sector, int size, u64 block_id)
				2178	{
				2179	int ok;
				2180	struct p_block_req p;
				2181
				2182	p.sector = cpu_to_be64(sector);
				2183	p.block_id = block_id;
				2184	p.blksize = cpu_to_be32(size);
				2185
				2186	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, cmd,
				2187	(struct p_header *)&p, sizeof(p));
				2188	return ok;
				2189	}
				2190
				2191	int drbd_send_drequest_csum(struct drbd_conf *mdev,
				2192	sector_t sector, int size,
				2193	void *digest, int digest_size,
				2194	enum drbd_packets cmd)
				2195	{
				2196	int ok;
				2197	struct p_block_req p;
				2198
				2199	p.sector = cpu_to_be64(sector);
				2200	p.block_id = BE_DRBD_MAGIC + 0xbeef;
				2201	p.blksize = cpu_to_be32(size);
				2202
				2203	p.head.magic = BE_DRBD_MAGIC;
				2204	p.head.command = cpu_to_be16(cmd);
				2205	p.head.length = cpu_to_be16(sizeof(p) - sizeof(struct p_header) + digest_size);
				2206
				2207	mutex_lock(&mdev->data.mutex);
				2208
				2209	ok = (sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), 0));
				2210	ok = ok && (digest_size == drbd_send(mdev, mdev->data.socket, digest, digest_size, 0));
				2211
				2212	mutex_unlock(&mdev->data.mutex);
				2213
				2214	return ok;
				2215	}
				2216
				2217	int drbd_send_ov_request(struct drbd_conf *mdev, sector_t sector, int size)
				2218	{
				2219	int ok;
				2220	struct p_block_req p;
				2221
				2222	p.sector = cpu_to_be64(sector);
				2223	p.block_id = BE_DRBD_MAGIC + 0xbabe;
				2224	p.blksize = cpu_to_be32(size);
				2225
				2226	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_OV_REQUEST,
				2227	(struct p_header *)&p, sizeof(p));
				2228	return ok;
				2229	}
				2230
				2231	/* called on sndtimeo
				2232	* returns FALSE if we should retry,
				2233	* TRUE if we think connection is dead
				2234	*/
				2235	static int we_should_drop_the_connection(struct drbd_conf mdev, struct socket sock)
				2236	{
				2237	int drop_it;
				2238	/* long elapsed = (long)(jiffies - mdev->last_received); */
				2239
				2240	drop_it = mdev->meta.socket == sock
				2241	\|\| !mdev->asender.task
				2242	\|\| get_t_state(&mdev->asender) != Running
				2243	\|\| mdev->state.conn < C_CONNECTED;
				2244
				2245	if (drop_it)
				2246	return TRUE;
				2247
				2248	drop_it = !--mdev->ko_count;
				2249	if (!drop_it) {
				2250	dev_err(DEV, "[%s/%d] sock_sendmsg time expired, ko = %u\n",
				2251	current->comm, current->pid, mdev->ko_count);
				2252	request_ping(mdev);
				2253	}
				2254
				2255	return drop_it; /* && (mdev->state == R_PRIMARY) */;
				2256	}
				2257
				2258	/* The idea of sendpage seems to be to put some kind of reference
				2259	* to the page into the skb, and to hand it over to the NIC. In
				2260	* this process get_page() gets called.
				2261	*
				2262	* As soon as the page was really sent over the network put_page()
				2263	* gets called by some part of the network layer. [ NIC driver? ]
				2264	*
				2265	* [ get_page() / put_page() increment/decrement the count. If count
				2266	* reaches 0 the page will be freed. ]
				2267	*
				2268	* This works nicely with pages from FSs.
				2269	* But this means that in protocol A we might signal IO completion too early!
				2270	*
				2271	* In order not to corrupt data during a resync we must make sure
				2272	* that we do not reuse our own buffer pages (EEs) to early, therefore
				2273	* we have the net_ee list.
				2274	*
				2275	* XFS seems to have problems, still, it submits pages with page_count == 0!
				2276	* As a workaround, we disable sendpage on pages
				2277	* with page_count == 0 or PageSlab.
				2278	*/
				2279	static int _drbd_no_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2280	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2281	{
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2282	int sent = drbd_send(mdev, mdev->data.socket, kmap(page) + offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2283	kunmap(page);
				2284	if (sent == size)
				2285	mdev->send_cnt += size>>9;
				2286	return sent == size;
				2287	}
				2288
				2289	static int _drbd_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2290	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2291	{
				2292	mm_segment_t oldfs = get_fs();
				2293	int sent, ok;
				2294	int len = size;
				2295
				2296	/* e.g. XFS meta- & log-data is in slab pages, which have a
				2297	* page_count of 0 and/or have PageSlab() set.
				2298	* we cannot use send_page for those, as that does get_page();
				2299	* put_page(); and would cause either a VM_BUG directly, or
				2300	* __page_cache_release a page that would actually still be referenced
				2301	* by someone, leading to some obscure delayed Oops somewhere else. */
				2302	if (disable_sendpage \|\| (page_count(page) < 1) \|\| PageSlab(page))
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2303	return _drbd_no_send_page(mdev, page, offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2304
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2305	msg_flags \|= MSG_NOSIGNAL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2306	drbd_update_congested(mdev);
				2307	set_fs(KERNEL_DS);
				2308	do {
				2309	sent = mdev->data.socket->ops->sendpage(mdev->data.socket, page,
				2310	offset, len,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2311	msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2312	if (sent == -EAGAIN) {
				2313	if (we_should_drop_the_connection(mdev,
				2314	mdev->data.socket))
				2315	break;
				2316	else
				2317	continue;
				2318	}
				2319	if (sent <= 0) {
				2320	dev_warn(DEV, "%s: size=%d len=%d sent=%d\n",
				2321	__func__, (int)size, len, sent);
				2322	break;
				2323	}
				2324	len -= sent;
				2325	offset += sent;
				2326	} while (len > 0 /* THINK && mdev->cstate >= C_CONNECTED*/);
				2327	set_fs(oldfs);
				2328	clear_bit(NET_CONGESTED, &mdev->flags);
				2329
				2330	ok = (len == 0);
				2331	if (likely(ok))
				2332	mdev->send_cnt += size>>9;
				2333	return ok;
				2334	}
				2335
				2336	static int _drbd_send_bio(struct drbd_conf mdev, struct bio bio)
				2337	{
				2338	struct bio_vec *bvec;
				2339	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2340	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2341	__bio_for_each_segment(bvec, bio, i, 0) {
				2342	if (!_drbd_no_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2343	bvec->bv_offset, bvec->bv_len,
				2344	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2345	return 0;
				2346	}
				2347	return 1;
				2348	}
				2349
				2350	static int _drbd_send_zc_bio(struct drbd_conf mdev, struct bio bio)
				2351	{
				2352	struct bio_vec *bvec;
				2353	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2354	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2355	__bio_for_each_segment(bvec, bio, i, 0) {
				2356	if (!_drbd_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2357	bvec->bv_offset, bvec->bv_len,
				2358	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2359	return 0;
				2360	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2361	return 1;
				2362	}
				2363
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2364	static int _drbd_send_zc_ee(struct drbd_conf mdev, struct drbd_epoch_entry e)
				2365	{
				2366	struct page *page = e->pages;
				2367	unsigned len = e->size;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2368	/* hint all but last page with MSG_MORE */
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2369	page_chain_for_each(page) {
				2370	unsigned l = min_t(unsigned, len, PAGE_SIZE);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2371	if (!_drbd_send_page(mdev, page, 0, l,
				2372	page_chain_next(page) ? MSG_MORE : 0))
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2373	return 0;
				2374	len -= l;
				2375	}
				2376	return 1;
				2377	}
				2378
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2379	/* Used to send write requests
				2380	* R_PRIMARY -> Peer (P_DATA)
				2381	*/
				2382	int drbd_send_dblock(struct drbd_conf mdev, struct drbd_request req)
				2383	{
				2384	int ok = 1;
				2385	struct p_data p;
				2386	unsigned int dp_flags = 0;
				2387	void *dgb;
				2388	int dgs;
				2389
				2390	if (!drbd_get_data_sock(mdev))
				2391	return 0;
				2392
				2393	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2394	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2395
				2396	p.head.magic = BE_DRBD_MAGIC;
				2397	p.head.command = cpu_to_be16(P_DATA);
				2398	p.head.length =
				2399	cpu_to_be16(sizeof(p) - sizeof(struct p_header) + dgs + req->size);
				2400
				2401	p.sector = cpu_to_be64(req->sector);
				2402	p.block_id = (unsigned long)req;
				2403	p.seq_num = cpu_to_be32(req->seq_num =
				2404	atomic_add_return(1, &mdev->packet_seq));
				2405	dp_flags = 0;
				2406
				2407	/* NOTE: no need to check if barriers supported here as we would
				2408	* not pass the test in make_request_common in that case
				2409	*/
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2410	if (req->master_bio->bi_rw & REQ_HARDBARRIER) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2411	dev_err(DEV, "ASSERT FAILED would have set DP_HARDBARRIER\n");
				2412	/* dp_flags \|= DP_HARDBARRIER; */
				2413	}
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2414	if (req->master_bio->bi_rw & REQ_SYNC)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2415	dp_flags \|= DP_RW_SYNC;
				2416	/* for now handle SYNCIO and UNPLUG
				2417	* as if they still were one and the same flag */
Christoph Hellwig	7b6d91d	2010-08-07 18:20:39 +0200	[diff] [blame]	2418	if (req->master_bio->bi_rw & REQ_UNPLUG)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2419	dp_flags \|= DP_RW_SYNC;
				2420	if (mdev->state.conn >= C_SYNC_SOURCE &&
				2421	mdev->state.conn <= C_PAUSED_SYNC_T)
				2422	dp_flags \|= DP_MAY_SET_IN_SYNC;
				2423
				2424	p.dp_flags = cpu_to_be32(dp_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2425	set_bit(UNPLUG_REMOTE, &mdev->flags);
				2426	ok = (sizeof(p) ==
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2427	drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2428	if (ok && dgs) {
				2429	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2430	drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2431	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2432	}
				2433	if (ok) {
				2434	if (mdev->net_conf->wire_protocol == DRBD_PROT_A)
				2435	ok = _drbd_send_bio(mdev, req->master_bio);
				2436	else
				2437	ok = _drbd_send_zc_bio(mdev, req->master_bio);
				2438	}
				2439
				2440	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2441
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2442	return ok;
				2443	}
				2444
				2445	/* answer packet, used to send data back for read requests:
				2446	* Peer -> (diskless) R_PRIMARY (P_DATA_REPLY)
				2447	* C_SYNC_SOURCE -> C_SYNC_TARGET (P_RS_DATA_REPLY)
				2448	*/
				2449	int drbd_send_block(struct drbd_conf *mdev, enum drbd_packets cmd,
				2450	struct drbd_epoch_entry *e)
				2451	{
				2452	int ok;
				2453	struct p_data p;
				2454	void *dgb;
				2455	int dgs;
				2456
				2457	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2458	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2459
				2460	p.head.magic = BE_DRBD_MAGIC;
				2461	p.head.command = cpu_to_be16(cmd);
				2462	p.head.length =
				2463	cpu_to_be16(sizeof(p) - sizeof(struct p_header) + dgs + e->size);
				2464
				2465	p.sector = cpu_to_be64(e->sector);
				2466	p.block_id = e->block_id;
				2467	/* p.seq_num = 0; No sequence numbers here.. */
				2468
				2469	/* Only called by our kernel thread.
				2470	* This one may be interrupted by DRBD_SIG and/or DRBD_SIGKILL
				2471	* in response to admin command or module unload.
				2472	*/
				2473	if (!drbd_get_data_sock(mdev))
				2474	return 0;
				2475
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2476	ok = sizeof(p) == drbd_send(mdev, mdev->data.socket, &p,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2477	sizeof(p), dgs ? MSG_MORE : 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2478	if (ok && dgs) {
				2479	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2480	drbd_csum_ee(mdev, mdev->integrity_w_tfm, e, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2481	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2482	}
				2483	if (ok)
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2484	ok = _drbd_send_zc_ee(mdev, e);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2485
				2486	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2487
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2488	return ok;
				2489	}
				2490
				2491	/*
				2492	drbd_send distinguishes two cases:
				2493
				2494	Packets sent via the data socket "sock"
				2495	and packets sent via the meta data socket "msock"
				2496
				2497	sock msock
				2498	-----------------+-------------------------+------------------------------
				2499	timeout conf.timeout / 2 conf.timeout / 2
				2500	timeout action send a ping via msock Abort communication
				2501	and close all sockets
				2502	*/
				2503
				2504	/*
				2505	* you must have down()ed the appropriate [m]sock_mutex elsewhere!
				2506	*/
				2507	int drbd_send(struct drbd_conf mdev, struct socket sock,
				2508	void *buf, size_t size, unsigned msg_flags)
				2509	{
				2510	struct kvec iov;
				2511	struct msghdr msg;
				2512	int rv, sent = 0;
				2513
				2514	if (!sock)
				2515	return -1000;
				2516
				2517	/* THINK if (signal_pending) return ... ? */
				2518
				2519	iov.iov_base = buf;
				2520	iov.iov_len = size;
				2521
				2522	msg.msg_name = NULL;
				2523	msg.msg_namelen = 0;
				2524	msg.msg_control = NULL;
				2525	msg.msg_controllen = 0;
				2526	msg.msg_flags = msg_flags \| MSG_NOSIGNAL;
				2527
				2528	if (sock == mdev->data.socket) {
				2529	mdev->ko_count = mdev->net_conf->ko_count;
				2530	drbd_update_congested(mdev);
				2531	}
				2532	do {
				2533	/* STRANGE
				2534	* tcp_sendmsg does _not_ use its size parameter at all ?
				2535	*
				2536	* -EAGAIN on timeout, -EINTR on signal.
				2537	*/
				2538	/* THINK
				2539	* do we need to block DRBD_SIG if sock == &meta.socket ??
				2540	* otherwise wake_asender() might interrupt some send_*Ack !
				2541	*/
				2542	rv = kernel_sendmsg(sock, &msg, &iov, 1, size);
				2543	if (rv == -EAGAIN) {
				2544	if (we_should_drop_the_connection(mdev, sock))
				2545	break;
				2546	else
				2547	continue;
				2548	}
				2549	D_ASSERT(rv != 0);
				2550	if (rv == -EINTR) {
				2551	flush_signals(current);
				2552	rv = 0;
				2553	}
				2554	if (rv < 0)
				2555	break;
				2556	sent += rv;
				2557	iov.iov_base += rv;
				2558	iov.iov_len -= rv;
				2559	} while (sent < size);
				2560
				2561	if (sock == mdev->data.socket)
				2562	clear_bit(NET_CONGESTED, &mdev->flags);
				2563
				2564	if (rv <= 0) {
				2565	if (rv != -EAGAIN) {
				2566	dev_err(DEV, "%s_sendmsg returned %d\n",
				2567	sock == mdev->meta.socket ? "msock" : "sock",
				2568	rv);
				2569	drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
				2570	} else
				2571	drbd_force_state(mdev, NS(conn, C_TIMEOUT));
				2572	}
				2573
				2574	return sent;
				2575	}
				2576
				2577	static int drbd_open(struct block_device *bdev, fmode_t mode)
				2578	{
				2579	struct drbd_conf *mdev = bdev->bd_disk->private_data;
				2580	unsigned long flags;
				2581	int rv = 0;
				2582
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2583	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2584	spin_lock_irqsave(&mdev->req_lock, flags);
				2585	/* to have a stable mdev->state.role
				2586	* and no race with updating open_cnt */
				2587
				2588	if (mdev->state.role != R_PRIMARY) {
				2589	if (mode & FMODE_WRITE)
				2590	rv = -EROFS;
				2591	else if (!allow_oos)
				2592	rv = -EMEDIUMTYPE;
				2593	}
				2594
				2595	if (!rv)
				2596	mdev->open_cnt++;
				2597	spin_unlock_irqrestore(&mdev->req_lock, flags);
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2598	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2599
				2600	return rv;
				2601	}
				2602
				2603	static int drbd_release(struct gendisk *gd, fmode_t mode)
				2604	{
				2605	struct drbd_conf *mdev = gd->private_data;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2606	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2607	mdev->open_cnt--;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2608	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2609	return 0;
				2610	}
				2611
				2612	static void drbd_unplug_fn(struct request_queue *q)
				2613	{
				2614	struct drbd_conf *mdev = q->queuedata;
				2615
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2616	/* unplug FIRST */
				2617	spin_lock_irq(q->queue_lock);
				2618	blk_remove_plug(q);
				2619	spin_unlock_irq(q->queue_lock);
				2620
				2621	/* only if connected */
				2622	spin_lock_irq(&mdev->req_lock);
				2623	if (mdev->state.pdsk >= D_INCONSISTENT && mdev->state.conn >= C_CONNECTED) {
				2624	D_ASSERT(mdev->state.role == R_PRIMARY);
				2625	if (test_and_clear_bit(UNPLUG_REMOTE, &mdev->flags)) {
				2626	/* add to the data.work queue,
				2627	* unless already queued.
				2628	* XXX this might be a good addition to drbd_queue_work
				2629	* anyways, to detect "double queuing" ... */
				2630	if (list_empty(&mdev->unplug_work.list))
				2631	drbd_queue_work(&mdev->data.work,
				2632	&mdev->unplug_work);
				2633	}
				2634	}
				2635	spin_unlock_irq(&mdev->req_lock);
				2636
				2637	if (mdev->state.disk >= D_INCONSISTENT)
				2638	drbd_kick_lo(mdev);
				2639	}
				2640
				2641	static void drbd_set_defaults(struct drbd_conf *mdev)
				2642	{
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2643	/* This way we get a compile error when sync_conf grows,
				2644	and we forgot to initialize it here */
				2645	mdev->sync_conf = (struct syncer_conf) {
				2646	/* .rate = */ DRBD_RATE_DEF,
				2647	/* .after = */ DRBD_AFTER_DEF,
				2648	/* .al_extents = */ DRBD_AL_EXTENTS_DEF,
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2649	/* .verify_alg = */ {}, 0,
				2650	/* .cpu_mask = */ {}, 0,
				2651	/* .csums_alg = */ {}, 0,
				2652	/* .use_rle = */ 0
				2653	};
				2654
				2655	/* Have to use that way, because the layout differs between
				2656	big endian and little endian */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2657	mdev->state = (union drbd_state) {
				2658	{ .role = R_SECONDARY,
				2659	.peer = R_UNKNOWN,
				2660	.conn = C_STANDALONE,
				2661	.disk = D_DISKLESS,
				2662	.pdsk = D_UNKNOWN,
				2663	.susp = 0
				2664	} };
				2665	}
				2666
				2667	void drbd_init_set_defaults(struct drbd_conf *mdev)
				2668	{
				2669	/* the memset(,0,) did most of this.
				2670	* note: only assignments, no allocation in here */
				2671
				2672	drbd_set_defaults(mdev);
				2673
				2674	/* for now, we do NOT yet support it,
				2675	* even though we start some framework
				2676	* to eventually support barriers */
				2677	set_bit(NO_BARRIER_SUPP, &mdev->flags);
				2678
				2679	atomic_set(&mdev->ap_bio_cnt, 0);
				2680	atomic_set(&mdev->ap_pending_cnt, 0);
				2681	atomic_set(&mdev->rs_pending_cnt, 0);
				2682	atomic_set(&mdev->unacked_cnt, 0);
				2683	atomic_set(&mdev->local_cnt, 0);
				2684	atomic_set(&mdev->net_cnt, 0);
				2685	atomic_set(&mdev->packet_seq, 0);
				2686	atomic_set(&mdev->pp_in_use, 0);
				2687
				2688	mutex_init(&mdev->md_io_mutex);
				2689	mutex_init(&mdev->data.mutex);
				2690	mutex_init(&mdev->meta.mutex);
				2691	sema_init(&mdev->data.work.s, 0);
				2692	sema_init(&mdev->meta.work.s, 0);
				2693	mutex_init(&mdev->state_mutex);
				2694
				2695	spin_lock_init(&mdev->data.work.q_lock);
				2696	spin_lock_init(&mdev->meta.work.q_lock);
				2697
				2698	spin_lock_init(&mdev->al_lock);
				2699	spin_lock_init(&mdev->req_lock);
				2700	spin_lock_init(&mdev->peer_seq_lock);
				2701	spin_lock_init(&mdev->epoch_lock);
				2702
				2703	INIT_LIST_HEAD(&mdev->active_ee);
				2704	INIT_LIST_HEAD(&mdev->sync_ee);
				2705	INIT_LIST_HEAD(&mdev->done_ee);
				2706	INIT_LIST_HEAD(&mdev->read_ee);
				2707	INIT_LIST_HEAD(&mdev->net_ee);
				2708	INIT_LIST_HEAD(&mdev->resync_reads);
				2709	INIT_LIST_HEAD(&mdev->data.work.q);
				2710	INIT_LIST_HEAD(&mdev->meta.work.q);
				2711	INIT_LIST_HEAD(&mdev->resync_work.list);
				2712	INIT_LIST_HEAD(&mdev->unplug_work.list);
				2713	INIT_LIST_HEAD(&mdev->md_sync_work.list);
				2714	INIT_LIST_HEAD(&mdev->bm_io_work.w.list);
Philipp Reisner	0ced55a	2010-04-30 15:26:20 +0200	[diff] [blame]	2715
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2716	mdev->resync_work.cb = w_resync_inactive;
				2717	mdev->unplug_work.cb = w_send_write_hint;
				2718	mdev->md_sync_work.cb = w_md_sync;
				2719	mdev->bm_io_work.w.cb = w_bitmap_io;
				2720	init_timer(&mdev->resync_timer);
				2721	init_timer(&mdev->md_sync_timer);
				2722	mdev->resync_timer.function = resync_timer_fn;
				2723	mdev->resync_timer.data = (unsigned long) mdev;
				2724	mdev->md_sync_timer.function = md_sync_timer_fn;
				2725	mdev->md_sync_timer.data = (unsigned long) mdev;
				2726
				2727	init_waitqueue_head(&mdev->misc_wait);
				2728	init_waitqueue_head(&mdev->state_wait);
				2729	init_waitqueue_head(&mdev->ee_wait);
				2730	init_waitqueue_head(&mdev->al_wait);
				2731	init_waitqueue_head(&mdev->seq_wait);
				2732
				2733	drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
				2734	drbd_thread_init(mdev, &mdev->worker, drbd_worker);
				2735	drbd_thread_init(mdev, &mdev->asender, drbd_asender);
				2736
				2737	mdev->agreed_pro_version = PRO_VERSION_MAX;
				2738	mdev->write_ordering = WO_bio_barrier;
				2739	mdev->resync_wenr = LC_FREE;
				2740	}
				2741
				2742	void drbd_mdev_cleanup(struct drbd_conf *mdev)
				2743	{
				2744	if (mdev->receiver.t_state != None)
				2745	dev_err(DEV, "ASSERT FAILED: receiver t_state == %d expected 0.\n",
				2746	mdev->receiver.t_state);
				2747
				2748	/* no need to lock it, I'm the only thread alive */
				2749	if (atomic_read(&mdev->current_epoch->epoch_size) != 0)
				2750	dev_err(DEV, "epoch_size:%d\n", atomic_read(&mdev->current_epoch->epoch_size));
				2751	mdev->al_writ_cnt =
				2752	mdev->bm_writ_cnt =
				2753	mdev->read_cnt =
				2754	mdev->recv_cnt =
				2755	mdev->send_cnt =
				2756	mdev->writ_cnt =
				2757	mdev->p_size =
				2758	mdev->rs_start =
				2759	mdev->rs_total =
				2760	mdev->rs_failed =
				2761	mdev->rs_mark_left =
				2762	mdev->rs_mark_time = 0;
				2763	D_ASSERT(mdev->net_conf == NULL);
				2764
				2765	drbd_set_my_capacity(mdev, 0);
				2766	if (mdev->bitmap) {
				2767	/* maybe never allocated. */
Philipp Reisner	02d9a94	2010-03-24 16:23:03 +0100	[diff] [blame]	2768	drbd_bm_resize(mdev, 0, 1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2769	drbd_bm_cleanup(mdev);
				2770	}
				2771
				2772	drbd_free_resources(mdev);
				2773
				2774	/*
				2775	* currently we drbd_init_ee only on module load, so
				2776	* we may do drbd_release_ee only on module unload!
				2777	*/
				2778	D_ASSERT(list_empty(&mdev->active_ee));
				2779	D_ASSERT(list_empty(&mdev->sync_ee));
				2780	D_ASSERT(list_empty(&mdev->done_ee));
				2781	D_ASSERT(list_empty(&mdev->read_ee));
				2782	D_ASSERT(list_empty(&mdev->net_ee));
				2783	D_ASSERT(list_empty(&mdev->resync_reads));
				2784	D_ASSERT(list_empty(&mdev->data.work.q));
				2785	D_ASSERT(list_empty(&mdev->meta.work.q));
				2786	D_ASSERT(list_empty(&mdev->resync_work.list));
				2787	D_ASSERT(list_empty(&mdev->unplug_work.list));
				2788
				2789	}
				2790
				2791
				2792	static void drbd_destroy_mempools(void)
				2793	{
				2794	struct page *page;
				2795
				2796	while (drbd_pp_pool) {
				2797	page = drbd_pp_pool;
				2798	drbd_pp_pool = (struct page *)page_private(page);
				2799	__free_page(page);
				2800	drbd_pp_vacant--;
				2801	}
				2802
				2803	/* D_ASSERT(atomic_read(&drbd_pp_vacant)==0); */
				2804
				2805	if (drbd_ee_mempool)
				2806	mempool_destroy(drbd_ee_mempool);
				2807	if (drbd_request_mempool)
				2808	mempool_destroy(drbd_request_mempool);
				2809	if (drbd_ee_cache)
				2810	kmem_cache_destroy(drbd_ee_cache);
				2811	if (drbd_request_cache)
				2812	kmem_cache_destroy(drbd_request_cache);
				2813	if (drbd_bm_ext_cache)
				2814	kmem_cache_destroy(drbd_bm_ext_cache);
				2815	if (drbd_al_ext_cache)
				2816	kmem_cache_destroy(drbd_al_ext_cache);
				2817
				2818	drbd_ee_mempool = NULL;
				2819	drbd_request_mempool = NULL;
				2820	drbd_ee_cache = NULL;
				2821	drbd_request_cache = NULL;
				2822	drbd_bm_ext_cache = NULL;
				2823	drbd_al_ext_cache = NULL;
				2824
				2825	return;
				2826	}
				2827
				2828	static int drbd_create_mempools(void)
				2829	{
				2830	struct page *page;
				2831	const int number = (DRBD_MAX_SEGMENT_SIZE/PAGE_SIZE) * minor_count;
				2832	int i;
				2833
				2834	/* prepare our caches and mempools */
				2835	drbd_request_mempool = NULL;
				2836	drbd_ee_cache = NULL;
				2837	drbd_request_cache = NULL;
				2838	drbd_bm_ext_cache = NULL;
				2839	drbd_al_ext_cache = NULL;
				2840	drbd_pp_pool = NULL;
				2841
				2842	/* caches */
				2843	drbd_request_cache = kmem_cache_create(
				2844	"drbd_req", sizeof(struct drbd_request), 0, 0, NULL);
				2845	if (drbd_request_cache == NULL)
				2846	goto Enomem;
				2847
				2848	drbd_ee_cache = kmem_cache_create(
				2849	"drbd_ee", sizeof(struct drbd_epoch_entry), 0, 0, NULL);
				2850	if (drbd_ee_cache == NULL)
				2851	goto Enomem;
				2852
				2853	drbd_bm_ext_cache = kmem_cache_create(
				2854	"drbd_bm", sizeof(struct bm_extent), 0, 0, NULL);
				2855	if (drbd_bm_ext_cache == NULL)
				2856	goto Enomem;
				2857
				2858	drbd_al_ext_cache = kmem_cache_create(
				2859	"drbd_al", sizeof(struct lc_element), 0, 0, NULL);
				2860	if (drbd_al_ext_cache == NULL)
				2861	goto Enomem;
				2862
				2863	/* mempools */
				2864	drbd_request_mempool = mempool_create(number,
				2865	mempool_alloc_slab, mempool_free_slab, drbd_request_cache);
				2866	if (drbd_request_mempool == NULL)
				2867	goto Enomem;
				2868
				2869	drbd_ee_mempool = mempool_create(number,
				2870	mempool_alloc_slab, mempool_free_slab, drbd_ee_cache);
				2871	if (drbd_request_mempool == NULL)
				2872	goto Enomem;
				2873
				2874	/* drbd's page pool */
				2875	spin_lock_init(&drbd_pp_lock);
				2876
				2877	for (i = 0; i < number; i++) {
				2878	page = alloc_page(GFP_HIGHUSER);
				2879	if (!page)
				2880	goto Enomem;
				2881	set_page_private(page, (unsigned long)drbd_pp_pool);
				2882	drbd_pp_pool = page;
				2883	}
				2884	drbd_pp_vacant = number;
				2885
				2886	return 0;
				2887
				2888	Enomem:
				2889	drbd_destroy_mempools(); /* in case we allocated some */
				2890	return -ENOMEM;
				2891	}
				2892
				2893	static int drbd_notify_sys(struct notifier_block *this, unsigned long code,
				2894	void *unused)
				2895	{
				2896	/* just so we have it. you never know what interesting things we
				2897	* might want to do here some day...
				2898	*/
				2899
				2900	return NOTIFY_DONE;
				2901	}
				2902
				2903	static struct notifier_block drbd_notifier = {
				2904	.notifier_call = drbd_notify_sys,
				2905	};
				2906
				2907	static void drbd_release_ee_lists(struct drbd_conf *mdev)
				2908	{
				2909	int rr;
				2910
				2911	rr = drbd_release_ee(mdev, &mdev->active_ee);
				2912	if (rr)
				2913	dev_err(DEV, "%d EEs in active list found!\n", rr);
				2914
				2915	rr = drbd_release_ee(mdev, &mdev->sync_ee);
				2916	if (rr)
				2917	dev_err(DEV, "%d EEs in sync list found!\n", rr);
				2918
				2919	rr = drbd_release_ee(mdev, &mdev->read_ee);
				2920	if (rr)
				2921	dev_err(DEV, "%d EEs in read list found!\n", rr);
				2922
				2923	rr = drbd_release_ee(mdev, &mdev->done_ee);
				2924	if (rr)
				2925	dev_err(DEV, "%d EEs in done list found!\n", rr);
				2926
				2927	rr = drbd_release_ee(mdev, &mdev->net_ee);
				2928	if (rr)
				2929	dev_err(DEV, "%d EEs in net list found!\n", rr);
				2930	}
				2931
				2932	/* caution. no locking.
				2933	* currently only used from module cleanup code. */
				2934	static void drbd_delete_device(unsigned int minor)
				2935	{
				2936	struct drbd_conf *mdev = minor_to_mdev(minor);
				2937
				2938	if (!mdev)
				2939	return;
				2940
				2941	/* paranoia asserts */
				2942	if (mdev->open_cnt != 0)
				2943	dev_err(DEV, "open_cnt = %d in %s:%u", mdev->open_cnt,
				2944	__FILE__ , __LINE__);
				2945
				2946	ERR_IF (!list_empty(&mdev->data.work.q)) {
				2947	struct list_head *lp;
				2948	list_for_each(lp, &mdev->data.work.q) {
				2949	dev_err(DEV, "lp = %p\n", lp);
				2950	}
				2951	};
				2952	/* end paranoia asserts */
				2953
				2954	del_gendisk(mdev->vdisk);
				2955
				2956	/* cleanup stuff that may have been allocated during
				2957	* device (re-)configuration or state changes */
				2958
				2959	if (mdev->this_bdev)
				2960	bdput(mdev->this_bdev);
				2961
				2962	drbd_free_resources(mdev);
				2963
				2964	drbd_release_ee_lists(mdev);
				2965
				2966	/* should be free'd on disconnect? */
				2967	kfree(mdev->ee_hash);
				2968	/*
				2969	mdev->ee_hash_s = 0;
				2970	mdev->ee_hash = NULL;
				2971	*/
				2972
				2973	lc_destroy(mdev->act_log);
				2974	lc_destroy(mdev->resync);
				2975
				2976	kfree(mdev->p_uuid);
				2977	/* mdev->p_uuid = NULL; */
				2978
				2979	kfree(mdev->int_dig_out);
				2980	kfree(mdev->int_dig_in);
				2981	kfree(mdev->int_dig_vv);
				2982
				2983	/* cleanup the rest that has been
				2984	* allocated from drbd_new_device
				2985	* and actually free the mdev itself */
				2986	drbd_free_mdev(mdev);
				2987	}
				2988
				2989	static void drbd_cleanup(void)
				2990	{
				2991	unsigned int i;
				2992
				2993	unregister_reboot_notifier(&drbd_notifier);
				2994
				2995	drbd_nl_cleanup();
				2996
				2997	if (minor_table) {
				2998	if (drbd_proc)
				2999	remove_proc_entry("drbd", NULL);
				3000	i = minor_count;
				3001	while (i--)
				3002	drbd_delete_device(i);
				3003	drbd_destroy_mempools();
				3004	}
				3005
				3006	kfree(minor_table);
				3007
				3008	unregister_blkdev(DRBD_MAJOR, "drbd");
				3009
				3010	printk(KERN_INFO "drbd: module cleanup done.\n");
				3011	}
				3012
				3013	/**
				3014	* drbd_congested() - Callback for pdflush
				3015	* @congested_data: User data
				3016	* @bdi_bits: Bits pdflush is currently interested in
				3017	*
				3018	* Returns 1<<BDI_async_congested and/or 1<<BDI_sync_congested if we are congested.
				3019	*/
				3020	static int drbd_congested(void *congested_data, int bdi_bits)
				3021	{
				3022	struct drbd_conf *mdev = congested_data;
				3023	struct request_queue *q;
				3024	char reason = '-';
				3025	int r = 0;
				3026
				3027	if (!__inc_ap_bio_cond(mdev)) {
				3028	/* DRBD has frozen IO */
				3029	r = bdi_bits;
				3030	reason = 'd';
				3031	goto out;
				3032	}
				3033
				3034	if (get_ldev(mdev)) {
				3035	q = bdev_get_queue(mdev->ldev->backing_bdev);
				3036	r = bdi_congested(&q->backing_dev_info, bdi_bits);
				3037	put_ldev(mdev);
				3038	if (r)
				3039	reason = 'b';
				3040	}
				3041
				3042	if (bdi_bits & (1 << BDI_async_congested) && test_bit(NET_CONGESTED, &mdev->flags)) {
				3043	r \|= (1 << BDI_async_congested);
				3044	reason = reason == 'b' ? 'a' : 'n';
				3045	}
				3046
				3047	out:
				3048	mdev->congestion_reason = reason;
				3049	return r;
				3050	}
				3051
				3052	struct drbd_conf *drbd_new_device(unsigned int minor)
				3053	{
				3054	struct drbd_conf *mdev;
				3055	struct gendisk *disk;
				3056	struct request_queue *q;
				3057
				3058	/* GFP_KERNEL, we are outside of all write-out paths */
				3059	mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
				3060	if (!mdev)
				3061	return NULL;
				3062	if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
				3063	goto out_no_cpumask;
				3064
				3065	mdev->minor = minor;
				3066
				3067	drbd_init_set_defaults(mdev);
				3068
				3069	q = blk_alloc_queue(GFP_KERNEL);
				3070	if (!q)
				3071	goto out_no_q;
				3072	mdev->rq_queue = q;
				3073	q->queuedata = mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3074
				3075	disk = alloc_disk(1);
				3076	if (!disk)
				3077	goto out_no_disk;
				3078	mdev->vdisk = disk;
				3079
				3080	set_disk_ro(disk, TRUE);
				3081
				3082	disk->queue = q;
				3083	disk->major = DRBD_MAJOR;
				3084	disk->first_minor = minor;
				3085	disk->fops = &drbd_ops;
				3086	sprintf(disk->disk_name, "drbd%d", minor);
				3087	disk->private_data = mdev;
				3088
				3089	mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
				3090	/* we have no partitions. we contain only ourselves. */
				3091	mdev->this_bdev->bd_contains = mdev->this_bdev;
				3092
				3093	q->backing_dev_info.congested_fn = drbd_congested;
				3094	q->backing_dev_info.congested_data = mdev;
				3095
				3096	blk_queue_make_request(q, drbd_make_request_26);
Lars Ellenberg	98ec286	2010-01-21 19:33:14 +0100	[diff] [blame]	3097	blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3098	blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
				3099	blk_queue_merge_bvec(q, drbd_merge_bvec);
				3100	q->queue_lock = &mdev->req_lock; /* needed since we use */
				3101	/* plugging on a queue, that actually has no requests! */
				3102	q->unplug_fn = drbd_unplug_fn;
				3103
				3104	mdev->md_io_page = alloc_page(GFP_KERNEL);
				3105	if (!mdev->md_io_page)
				3106	goto out_no_io_page;
				3107
				3108	if (drbd_bm_init(mdev))
				3109	goto out_no_bitmap;
				3110	/* no need to lock access, we are still initializing this minor device. */
				3111	if (!tl_init(mdev))
				3112	goto out_no_tl;
				3113
				3114	mdev->app_reads_hash = kzalloc(APP_R_HSIZEsizeof(void ), GFP_KERNEL);
				3115	if (!mdev->app_reads_hash)
				3116	goto out_no_app_reads;
				3117
				3118	mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
				3119	if (!mdev->current_epoch)
				3120	goto out_no_epoch;
				3121
				3122	INIT_LIST_HEAD(&mdev->current_epoch->list);
				3123	mdev->epochs = 1;
				3124
				3125	return mdev;
				3126
				3127	/* out_whatever_else:
				3128	kfree(mdev->current_epoch); */
				3129	out_no_epoch:
				3130	kfree(mdev->app_reads_hash);
				3131	out_no_app_reads:
				3132	tl_cleanup(mdev);
				3133	out_no_tl:
				3134	drbd_bm_cleanup(mdev);
				3135	out_no_bitmap:
				3136	__free_page(mdev->md_io_page);
				3137	out_no_io_page:
				3138	put_disk(disk);
				3139	out_no_disk:
				3140	blk_cleanup_queue(q);
				3141	out_no_q:
				3142	free_cpumask_var(mdev->cpu_mask);
				3143	out_no_cpumask:
				3144	kfree(mdev);
				3145	return NULL;
				3146	}
				3147
				3148	/* counterpart of drbd_new_device.
				3149	* last part of drbd_delete_device. */
				3150	void drbd_free_mdev(struct drbd_conf *mdev)
				3151	{
				3152	kfree(mdev->current_epoch);
				3153	kfree(mdev->app_reads_hash);
				3154	tl_cleanup(mdev);
				3155	if (mdev->bitmap) /* should no longer be there. */
				3156	drbd_bm_cleanup(mdev);
				3157	__free_page(mdev->md_io_page);
				3158	put_disk(mdev->vdisk);
				3159	blk_cleanup_queue(mdev->rq_queue);
				3160	free_cpumask_var(mdev->cpu_mask);
				3161	kfree(mdev);
				3162	}
				3163
				3164
				3165	int __init drbd_init(void)
				3166	{
				3167	int err;
				3168
				3169	if (sizeof(struct p_handshake) != 80) {
				3170	printk(KERN_ERR
				3171	"drbd: never change the size or layout "
				3172	"of the HandShake packet.\n");
				3173	return -EINVAL;
				3174	}
				3175
				3176	if (1 > minor_count \|\| minor_count > 255) {
				3177	printk(KERN_ERR
				3178	"drbd: invalid minor_count (%d)\n", minor_count);
				3179	#ifdef MODULE
				3180	return -EINVAL;
				3181	#else
				3182	minor_count = 8;
				3183	#endif
				3184	}
				3185
				3186	err = drbd_nl_init();
				3187	if (err)
				3188	return err;
				3189
				3190	err = register_blkdev(DRBD_MAJOR, "drbd");
				3191	if (err) {
				3192	printk(KERN_ERR
				3193	"drbd: unable to register block device major %d\n",
				3194	DRBD_MAJOR);
				3195	return err;
				3196	}
				3197
				3198	register_reboot_notifier(&drbd_notifier);
				3199
				3200	/*
				3201	* allocate all necessary structs
				3202	*/
				3203	err = -ENOMEM;
				3204
				3205	init_waitqueue_head(&drbd_pp_wait);
				3206
				3207	drbd_proc = NULL; /* play safe for drbd_cleanup */
				3208	minor_table = kzalloc(sizeof(struct drbd_conf )minor_count,
				3209	GFP_KERNEL);
				3210	if (!minor_table)
				3211	goto Enomem;
				3212
				3213	err = drbd_create_mempools();
				3214	if (err)
				3215	goto Enomem;
				3216
Lars Ellenberg	8c484ee	2010-03-11 16:47:58 +0100	[diff] [blame]	3217	drbd_proc = proc_create_data("drbd", S_IFREG \| S_IRUGO , NULL, &drbd_proc_fops, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3218	if (!drbd_proc) {
				3219	printk(KERN_ERR "drbd: unable to register proc file\n");
				3220	goto Enomem;
				3221	}
				3222
				3223	rwlock_init(&global_state_lock);
				3224
				3225	printk(KERN_INFO "drbd: initialized. "
				3226	"Version: " REL_VERSION " (api:%d/proto:%d-%d)\n",
				3227	API_VERSION, PRO_VERSION_MIN, PRO_VERSION_MAX);
				3228	printk(KERN_INFO "drbd: %s\n", drbd_buildtag());
				3229	printk(KERN_INFO "drbd: registered as block device major %d\n",
				3230	DRBD_MAJOR);
				3231	printk(KERN_INFO "drbd: minor_table @ 0x%p\n", minor_table);
				3232
				3233	return 0; /* Success! */
				3234
				3235	Enomem:
				3236	drbd_cleanup();
				3237	if (err == -ENOMEM)
				3238	/* currently always the case */
				3239	printk(KERN_ERR "drbd: ran out of memory\n");
				3240	else
				3241	printk(KERN_ERR "drbd: initialization failure\n");
				3242	return err;
				3243	}
				3244
				3245	void drbd_free_bc(struct drbd_backing_dev *ldev)
				3246	{
				3247	if (ldev == NULL)
				3248	return;
				3249
				3250	bd_release(ldev->backing_bdev);
				3251	bd_release(ldev->md_bdev);
				3252
				3253	fput(ldev->lo_file);
				3254	fput(ldev->md_file);
				3255
				3256	kfree(ldev);
				3257	}
				3258
				3259	void drbd_free_sock(struct drbd_conf *mdev)
				3260	{
				3261	if (mdev->data.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3262	mutex_lock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3263	kernel_sock_shutdown(mdev->data.socket, SHUT_RDWR);
				3264	sock_release(mdev->data.socket);
				3265	mdev->data.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3266	mutex_unlock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3267	}
				3268	if (mdev->meta.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3269	mutex_lock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3270	kernel_sock_shutdown(mdev->meta.socket, SHUT_RDWR);
				3271	sock_release(mdev->meta.socket);
				3272	mdev->meta.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3273	mutex_unlock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3274	}
				3275	}
				3276
				3277
				3278	void drbd_free_resources(struct drbd_conf *mdev)
				3279	{
				3280	crypto_free_hash(mdev->csums_tfm);
				3281	mdev->csums_tfm = NULL;
				3282	crypto_free_hash(mdev->verify_tfm);
				3283	mdev->verify_tfm = NULL;
				3284	crypto_free_hash(mdev->cram_hmac_tfm);
				3285	mdev->cram_hmac_tfm = NULL;
				3286	crypto_free_hash(mdev->integrity_w_tfm);
				3287	mdev->integrity_w_tfm = NULL;
				3288	crypto_free_hash(mdev->integrity_r_tfm);
				3289	mdev->integrity_r_tfm = NULL;
				3290
				3291	drbd_free_sock(mdev);
				3292
				3293	__no_warn(local,
				3294	drbd_free_bc(mdev->ldev);
				3295	mdev->ldev = NULL;);
				3296	}
				3297
				3298	/* meta data management */
				3299
				3300	struct meta_data_on_disk {
				3301	u64 la_size; /* last agreed size. */
				3302	u64 uuid[UI_SIZE]; /* UUIDs. */
				3303	u64 device_uuid;
				3304	u64 reserved_u64_1;
				3305	u32 flags; /* MDF */
				3306	u32 magic;
				3307	u32 md_size_sect;
				3308	u32 al_offset; /* offset to this block */
				3309	u32 al_nr_extents; /* important for restoring the AL */
				3310	/* `-- act_log->nr_elements <-- sync_conf.al_extents */
				3311	u32 bm_offset; /* offset to the bitmap, from here */
				3312	u32 bm_bytes_per_bit; /* BM_BLOCK_SIZE */
				3313	u32 reserved_u32[4];
				3314
				3315	} __packed;
				3316
				3317	/**
				3318	* drbd_md_sync() - Writes the meta data super block if the MD_DIRTY flag bit is set
				3319	* @mdev: DRBD device.
				3320	*/
				3321	void drbd_md_sync(struct drbd_conf *mdev)
				3322	{
				3323	struct meta_data_on_disk *buffer;
				3324	sector_t sector;
				3325	int i;
				3326
				3327	if (!test_and_clear_bit(MD_DIRTY, &mdev->flags))
				3328	return;
				3329	del_timer(&mdev->md_sync_timer);
				3330
				3331	/* We use here D_FAILED and not D_ATTACHING because we try to write
				3332	* metadata even if we detach due to a disk failure! */
				3333	if (!get_ldev_if_state(mdev, D_FAILED))
				3334	return;
				3335
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3336	mutex_lock(&mdev->md_io_mutex);
				3337	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3338	memset(buffer, 0, 512);
				3339
				3340	buffer->la_size = cpu_to_be64(drbd_get_capacity(mdev->this_bdev));
				3341	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3342	buffer->uuid[i] = cpu_to_be64(mdev->ldev->md.uuid[i]);
				3343	buffer->flags = cpu_to_be32(mdev->ldev->md.flags);
				3344	buffer->magic = cpu_to_be32(DRBD_MD_MAGIC);
				3345
				3346	buffer->md_size_sect = cpu_to_be32(mdev->ldev->md.md_size_sect);
				3347	buffer->al_offset = cpu_to_be32(mdev->ldev->md.al_offset);
				3348	buffer->al_nr_extents = cpu_to_be32(mdev->act_log->nr_elements);
				3349	buffer->bm_bytes_per_bit = cpu_to_be32(BM_BLOCK_SIZE);
				3350	buffer->device_uuid = cpu_to_be64(mdev->ldev->md.device_uuid);
				3351
				3352	buffer->bm_offset = cpu_to_be32(mdev->ldev->md.bm_offset);
				3353
				3354	D_ASSERT(drbd_md_ss__(mdev, mdev->ldev) == mdev->ldev->md.md_offset);
				3355	sector = mdev->ldev->md.md_offset;
				3356
				3357	if (drbd_md_sync_page_io(mdev, mdev->ldev, sector, WRITE)) {
				3358	clear_bit(MD_DIRTY, &mdev->flags);
				3359	} else {
				3360	/* this was a try anyways ... */
				3361	dev_err(DEV, "meta data update failed!\n");
				3362
				3363	drbd_chk_io_error(mdev, 1, TRUE);
				3364	}
				3365
				3366	/* Update mdev->ldev->md.la_size_sect,
				3367	* since we updated it on metadata. */
				3368	mdev->ldev->md.la_size_sect = drbd_get_capacity(mdev->this_bdev);
				3369
				3370	mutex_unlock(&mdev->md_io_mutex);
				3371	put_ldev(mdev);
				3372	}
				3373
				3374	/**
				3375	* drbd_md_read() - Reads in the meta data super block
				3376	* @mdev: DRBD device.
				3377	* @bdev: Device from which the meta data should be read in.
				3378	*
				3379	* Return 0 (NO_ERROR) on success, and an enum drbd_ret_codes in case
				3380	* something goes wrong. Currently only: ERR_IO_MD_DISK, ERR_MD_INVALID.
				3381	*/
				3382	int drbd_md_read(struct drbd_conf mdev, struct drbd_backing_dev bdev)
				3383	{
				3384	struct meta_data_on_disk *buffer;
				3385	int i, rv = NO_ERROR;
				3386
				3387	if (!get_ldev_if_state(mdev, D_ATTACHING))
				3388	return ERR_IO_MD_DISK;
				3389
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3390	mutex_lock(&mdev->md_io_mutex);
				3391	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3392
				3393	if (!drbd_md_sync_page_io(mdev, bdev, bdev->md.md_offset, READ)) {
				3394	/* NOTE: cant do normal error processing here as this is
				3395	called BEFORE disk is attached */
				3396	dev_err(DEV, "Error while reading metadata.\n");
				3397	rv = ERR_IO_MD_DISK;
				3398	goto err;
				3399	}
				3400
				3401	if (be32_to_cpu(buffer->magic) != DRBD_MD_MAGIC) {
				3402	dev_err(DEV, "Error while reading metadata, magic not found.\n");
				3403	rv = ERR_MD_INVALID;
				3404	goto err;
				3405	}
				3406	if (be32_to_cpu(buffer->al_offset) != bdev->md.al_offset) {
				3407	dev_err(DEV, "unexpected al_offset: %d (expected %d)\n",
				3408	be32_to_cpu(buffer->al_offset), bdev->md.al_offset);
				3409	rv = ERR_MD_INVALID;
				3410	goto err;
				3411	}
				3412	if (be32_to_cpu(buffer->bm_offset) != bdev->md.bm_offset) {
				3413	dev_err(DEV, "unexpected bm_offset: %d (expected %d)\n",
				3414	be32_to_cpu(buffer->bm_offset), bdev->md.bm_offset);
				3415	rv = ERR_MD_INVALID;
				3416	goto err;
				3417	}
				3418	if (be32_to_cpu(buffer->md_size_sect) != bdev->md.md_size_sect) {
				3419	dev_err(DEV, "unexpected md_size: %u (expected %u)\n",
				3420	be32_to_cpu(buffer->md_size_sect), bdev->md.md_size_sect);
				3421	rv = ERR_MD_INVALID;
				3422	goto err;
				3423	}
				3424
				3425	if (be32_to_cpu(buffer->bm_bytes_per_bit) != BM_BLOCK_SIZE) {
				3426	dev_err(DEV, "unexpected bm_bytes_per_bit: %u (expected %u)\n",
				3427	be32_to_cpu(buffer->bm_bytes_per_bit), BM_BLOCK_SIZE);
				3428	rv = ERR_MD_INVALID;
				3429	goto err;
				3430	}
				3431
				3432	bdev->md.la_size_sect = be64_to_cpu(buffer->la_size);
				3433	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3434	bdev->md.uuid[i] = be64_to_cpu(buffer->uuid[i]);
				3435	bdev->md.flags = be32_to_cpu(buffer->flags);
				3436	mdev->sync_conf.al_extents = be32_to_cpu(buffer->al_nr_extents);
				3437	bdev->md.device_uuid = be64_to_cpu(buffer->device_uuid);
				3438
				3439	if (mdev->sync_conf.al_extents < 7)
				3440	mdev->sync_conf.al_extents = 127;
				3441
				3442	err:
				3443	mutex_unlock(&mdev->md_io_mutex);
				3444	put_ldev(mdev);
				3445
				3446	return rv;
				3447	}
				3448
				3449	/**
				3450	* drbd_md_mark_dirty() - Mark meta data super block as dirty
				3451	* @mdev: DRBD device.
				3452	*
				3453	* Call this function if you change anything that should be written to
				3454	* the meta-data super block. This function sets MD_DIRTY, and starts a
				3455	* timer that ensures that within five seconds you have to call drbd_md_sync().
				3456	*/
				3457	void drbd_md_mark_dirty(struct drbd_conf *mdev)
				3458	{
				3459	set_bit(MD_DIRTY, &mdev->flags);
				3460	mod_timer(&mdev->md_sync_timer, jiffies + 5*HZ);
				3461	}
				3462
				3463
				3464	static void drbd_uuid_move_history(struct drbd_conf *mdev) __must_hold(local)
				3465	{
				3466	int i;
				3467
Jens Axboe	6a0afdf	2009-10-01 09:04:14 +0200	[diff] [blame]	3468	for (i = UI_HISTORY_START; i < UI_HISTORY_END; i++)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3469	mdev->ldev->md.uuid[i+1] = mdev->ldev->md.uuid[i];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3470	}
				3471
				3472	void _drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3473	{
				3474	if (idx == UI_CURRENT) {
				3475	if (mdev->state.role == R_PRIMARY)
				3476	val \|= 1;
				3477	else
				3478	val &= ~((u64)1);
				3479
				3480	drbd_set_ed_uuid(mdev, val);
				3481	}
				3482
				3483	mdev->ldev->md.uuid[idx] = val;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3484	drbd_md_mark_dirty(mdev);
				3485	}
				3486
				3487
				3488	void drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3489	{
				3490	if (mdev->ldev->md.uuid[idx]) {
				3491	drbd_uuid_move_history(mdev);
				3492	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[idx];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3493	}
				3494	_drbd_uuid_set(mdev, idx, val);
				3495	}
				3496
				3497	/**
				3498	* drbd_uuid_new_current() - Creates a new current UUID
				3499	* @mdev: DRBD device.
				3500	*
				3501	* Creates a new current UUID, and rotates the old current UUID into
				3502	* the bitmap slot. Causes an incremental resync upon next connect.
				3503	*/
				3504	void drbd_uuid_new_current(struct drbd_conf *mdev) __must_hold(local)
				3505	{
				3506	u64 val;
				3507
				3508	dev_info(DEV, "Creating new current UUID\n");
				3509	D_ASSERT(mdev->ldev->md.uuid[UI_BITMAP] == 0);
				3510	mdev->ldev->md.uuid[UI_BITMAP] = mdev->ldev->md.uuid[UI_CURRENT];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3511
				3512	get_random_bytes(&val, sizeof(u64));
				3513	_drbd_uuid_set(mdev, UI_CURRENT, val);
				3514	}
				3515
				3516	void drbd_uuid_set_bm(struct drbd_conf *mdev, u64 val) __must_hold(local)
				3517	{
				3518	if (mdev->ldev->md.uuid[UI_BITMAP] == 0 && val == 0)
				3519	return;
				3520
				3521	if (val == 0) {
				3522	drbd_uuid_move_history(mdev);
				3523	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[UI_BITMAP];
				3524	mdev->ldev->md.uuid[UI_BITMAP] = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3525	} else {
				3526	if (mdev->ldev->md.uuid[UI_BITMAP])
				3527	dev_warn(DEV, "bm UUID already set");
				3528
				3529	mdev->ldev->md.uuid[UI_BITMAP] = val;
				3530	mdev->ldev->md.uuid[UI_BITMAP] &= ~((u64)1);
				3531
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3532	}
				3533	drbd_md_mark_dirty(mdev);
				3534	}
				3535
				3536	/**
				3537	* drbd_bmio_set_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3538	* @mdev: DRBD device.
				3539	*
				3540	* Sets all bits in the bitmap and writes the whole bitmap to stable storage.
				3541	*/
				3542	int drbd_bmio_set_n_write(struct drbd_conf *mdev)
				3543	{
				3544	int rv = -EIO;
				3545
				3546	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3547	drbd_md_set_flag(mdev, MDF_FULL_SYNC);
				3548	drbd_md_sync(mdev);
				3549	drbd_bm_set_all(mdev);
				3550
				3551	rv = drbd_bm_write(mdev);
				3552
				3553	if (!rv) {
				3554	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				3555	drbd_md_sync(mdev);
				3556	}
				3557
				3558	put_ldev(mdev);
				3559	}
				3560
				3561	return rv;
				3562	}
				3563
				3564	/**
				3565	* drbd_bmio_clear_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3566	* @mdev: DRBD device.
				3567	*
				3568	* Clears all bits in the bitmap and writes the whole bitmap to stable storage.
				3569	*/
				3570	int drbd_bmio_clear_n_write(struct drbd_conf *mdev)
				3571	{
				3572	int rv = -EIO;
				3573
				3574	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3575	drbd_bm_clear_all(mdev);
				3576	rv = drbd_bm_write(mdev);
				3577	put_ldev(mdev);
				3578	}
				3579
				3580	return rv;
				3581	}
				3582
				3583	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused)
				3584	{
				3585	struct bm_io_work *work = container_of(w, struct bm_io_work, w);
				3586	int rv;
				3587
				3588	D_ASSERT(atomic_read(&mdev->ap_bio_cnt) == 0);
				3589
				3590	drbd_bm_lock(mdev, work->why);
				3591	rv = work->io_fn(mdev);
				3592	drbd_bm_unlock(mdev);
				3593
				3594	clear_bit(BITMAP_IO, &mdev->flags);
				3595	wake_up(&mdev->misc_wait);
				3596
				3597	if (work->done)
				3598	work->done(mdev, rv);
				3599
				3600	clear_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3601	work->why = NULL;
				3602
				3603	return 1;
				3604	}
				3605
				3606	/**
				3607	* drbd_queue_bitmap_io() - Queues an IO operation on the whole bitmap
				3608	* @mdev: DRBD device.
				3609	* @io_fn: IO callback to be called when bitmap IO is possible
				3610	* @done: callback to be called after the bitmap IO was performed
				3611	* @why: Descriptive text of the reason for doing the IO
				3612	*
				3613	* While IO on the bitmap happens we freeze application IO thus we ensure
				3614	* that drbd_set_out_of_sync() can not be called. This function MAY ONLY be
				3615	* called from worker context. It MUST NOT be used while a previous such
				3616	* work is still pending!
				3617	*/
				3618	void drbd_queue_bitmap_io(struct drbd_conf *mdev,
				3619	int (io_fn)(struct drbd_conf ),
				3620	void (done)(struct drbd_conf , int),
				3621	char *why)
				3622	{
				3623	D_ASSERT(current == mdev->worker.task);
				3624
				3625	D_ASSERT(!test_bit(BITMAP_IO_QUEUED, &mdev->flags));
				3626	D_ASSERT(!test_bit(BITMAP_IO, &mdev->flags));
				3627	D_ASSERT(list_empty(&mdev->bm_io_work.w.list));
				3628	if (mdev->bm_io_work.why)
				3629	dev_err(DEV, "FIXME going to queue '%s' but '%s' still pending?\n",
				3630	why, mdev->bm_io_work.why);
				3631
				3632	mdev->bm_io_work.io_fn = io_fn;
				3633	mdev->bm_io_work.done = done;
				3634	mdev->bm_io_work.why = why;
				3635
				3636	set_bit(BITMAP_IO, &mdev->flags);
				3637	if (atomic_read(&mdev->ap_bio_cnt) == 0) {
				3638	if (list_empty(&mdev->bm_io_work.w.list)) {
				3639	set_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3640	drbd_queue_work(&mdev->data.work, &mdev->bm_io_work.w);
				3641	} else
				3642	dev_err(DEV, "FIXME avoided double queuing bm_io_work\n");
				3643	}
				3644	}
				3645
				3646	/**
				3647	* drbd_bitmap_io() - Does an IO operation on the whole bitmap
				3648	* @mdev: DRBD device.
				3649	* @io_fn: IO callback to be called when bitmap IO is possible
				3650	* @why: Descriptive text of the reason for doing the IO
				3651	*
				3652	* freezes application IO while that the actual IO operations runs. This
				3653	* functions MAY NOT be called from worker context.
				3654	*/
				3655	int drbd_bitmap_io(struct drbd_conf mdev, int (io_fn)(struct drbd_conf ), char why)
				3656	{
				3657	int rv;
				3658
				3659	D_ASSERT(current != mdev->worker.task);
				3660
				3661	drbd_suspend_io(mdev);
				3662
				3663	drbd_bm_lock(mdev, why);
				3664	rv = io_fn(mdev);
				3665	drbd_bm_unlock(mdev);
				3666
				3667	drbd_resume_io(mdev);
				3668
				3669	return rv;
				3670	}
				3671
				3672	void drbd_md_set_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3673	{
				3674	if ((mdev->ldev->md.flags & flag) != flag) {
				3675	drbd_md_mark_dirty(mdev);
				3676	mdev->ldev->md.flags \|= flag;
				3677	}
				3678	}
				3679
				3680	void drbd_md_clear_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3681	{
				3682	if ((mdev->ldev->md.flags & flag) != 0) {
				3683	drbd_md_mark_dirty(mdev);
				3684	mdev->ldev->md.flags &= ~flag;
				3685	}
				3686	}
				3687	int drbd_md_test_flag(struct drbd_backing_dev *bdev, int flag)
				3688	{
				3689	return (bdev->md.flags & flag) != 0;
				3690	}
				3691
				3692	static void md_sync_timer_fn(unsigned long data)
				3693	{
				3694	struct drbd_conf mdev = (struct drbd_conf ) data;
				3695
				3696	drbd_queue_work_front(&mdev->data.work, &mdev->md_sync_work);
				3697	}
				3698
				3699	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused)
				3700	{
				3701	dev_warn(DEV, "md_sync_timer expired! Worker calls drbd_md_sync().\n");
				3702	drbd_md_sync(mdev);
				3703
				3704	return 1;
				3705	}
				3706
				3707	#ifdef CONFIG_DRBD_FAULT_INJECTION
				3708	/* Fault insertion support including random number generator shamelessly
				3709	* stolen from kernel/rcutorture.c */
				3710	struct fault_random_state {
				3711	unsigned long state;
				3712	unsigned long count;
				3713	};
				3714
				3715	#define FAULT_RANDOM_MULT 39916801 /* prime */
				3716	#define FAULT_RANDOM_ADD 479001701 /* prime */
				3717	#define FAULT_RANDOM_REFRESH 10000
				3718
				3719	/*
				3720	* Crude but fast random-number generator. Uses a linear congruential
				3721	* generator, with occasional help from get_random_bytes().
				3722	*/
				3723	static unsigned long
				3724	_drbd_fault_random(struct fault_random_state *rsp)
				3725	{
				3726	long refresh;
				3727
Roel Kluin	49829ea	2009-12-15 22:55:44 +0100	[diff] [blame]	3728	if (!rsp->count--) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3729	get_random_bytes(&refresh, sizeof(refresh));
				3730	rsp->state += refresh;
				3731	rsp->count = FAULT_RANDOM_REFRESH;
				3732	}
				3733	rsp->state = rsp->state * FAULT_RANDOM_MULT + FAULT_RANDOM_ADD;
				3734	return swahw32(rsp->state);
				3735	}
				3736
				3737	static char *
				3738	_drbd_fault_str(unsigned int type) {
				3739	static char *_faults[] = {
				3740	[DRBD_FAULT_MD_WR] = "Meta-data write",
				3741	[DRBD_FAULT_MD_RD] = "Meta-data read",
				3742	[DRBD_FAULT_RS_WR] = "Resync write",
				3743	[DRBD_FAULT_RS_RD] = "Resync read",
				3744	[DRBD_FAULT_DT_WR] = "Data write",
				3745	[DRBD_FAULT_DT_RD] = "Data read",
				3746	[DRBD_FAULT_DT_RA] = "Data read ahead",
				3747	[DRBD_FAULT_BM_ALLOC] = "BM allocation",
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	3748	[DRBD_FAULT_AL_EE] = "EE allocation",
				3749	[DRBD_FAULT_RECEIVE] = "receive data corruption",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3750	};
				3751
				3752	return (type < DRBD_FAULT_MAX) ? _faults[type] : "Unknown";
				3753	}
				3754
				3755	unsigned int
				3756	_drbd_insert_fault(struct drbd_conf *mdev, unsigned int type)
				3757	{
				3758	static struct fault_random_state rrs = {0, 0};
				3759
				3760	unsigned int ret = (
				3761	(fault_devs == 0 \|\|
				3762	((1 << mdev_to_minor(mdev)) & fault_devs) != 0) &&
				3763	(((_drbd_fault_random(&rrs) % 100) + 1) <= fault_rate));
				3764
				3765	if (ret) {
				3766	fault_count++;
				3767
Lars Ellenberg	7383506	2010-05-27 11:51:56 +0200	[diff] [blame]	3768	if (__ratelimit(&drbd_ratelimit_state))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3769	dev_warn(DEV, "***Simulating %s failure\n",
				3770	_drbd_fault_str(type));
				3771	}
				3772
				3773	return ret;
				3774	}
				3775	#endif
				3776
				3777	const char *drbd_buildtag(void)
				3778	{
				3779	/* DRBD built from external sources has here a reference to the
				3780	git hash of the source code. */
				3781
				3782	static char buildtag[38] = "\0uilt-in";
				3783
				3784	if (buildtag[0] == 0) {
				3785	#ifdef CONFIG_MODULES
				3786	if (THIS_MODULE != NULL)
				3787	sprintf(buildtag, "srcversion: %-24s", THIS_MODULE->srcversion);
				3788	else
				3789	#endif
				3790	buildtag[0] = 'b';
				3791	}
				3792
				3793	return buildtag;
				3794	}
				3795
				3796	module_init(drbd_init)
				3797	module_exit(drbd_cleanup)
				3798
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3799	EXPORT_SYMBOL(drbd_conn_str);
				3800	EXPORT_SYMBOL(drbd_role_str);
				3801	EXPORT_SYMBOL(drbd_disk_str);
				3802	EXPORT_SYMBOL(drbd_set_st_err_str);