Blame - drivers/block/drbd/drbd_worker.c - kernel/msm

blob: 3d70d8d015d9ab7b2f883b5b342b864274fabea0 [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd_worker.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	drbd is free software; you can redistribute it and/or modify
				11	it under the terms of the GNU General Public License as published by
				12	the Free Software Foundation; either version 2, or (at your option)
				13	any later version.
				14
				15	drbd is distributed in the hope that it will be useful,
				16	but WITHOUT ANY WARRANTY; without even the implied warranty of
				17	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				18	GNU General Public License for more details.
				19
				20	You should have received a copy of the GNU General Public License
				21	along with drbd; see the file COPYING. If not, write to
				22	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				23
				24	*/
				25
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	26	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	27	#include <linux/drbd.h>
				28	#include <linux/sched.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/wait.h>
				30	#include <linux/mm.h>
				31	#include <linux/memcontrol.h>
				32	#include <linux/mm_inline.h>
				33	#include <linux/slab.h>
				34	#include <linux/random.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	35	#include <linux/string.h>
				36	#include <linux/scatterlist.h>
				37
				38	#include "drbd_int.h"
				39	#include "drbd_req.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	40
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	41	static int w_make_ov_request(struct drbd_conf mdev, struct drbd_work w, int cancel);
Philipp Reisner	9d77a5f	2010-11-07 18:02:56 +0100	[diff] [blame]	42	static int w_make_resync_request(struct drbd_conf *mdev,
				43	struct drbd_work *w, int cancel);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	44
				45
				46
Andreas Gruenbacher	c5a9161	2011-01-25 17:33:38 +0100	[diff] [blame^]	47	/* endio handlers:
				48	* drbd_md_io_complete (defined here)
				49	* drbd_endio_pri (defined here)
				50	* drbd_endio_sec (defined here)
				51	* bm_async_io_complete (defined in drbd_bitmap.c)
				52	*
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	53	* For all these callbacks, note the following:
				54	* The callbacks will be called in irq context by the IDE drivers,
				55	* and in Softirqs/Tasklets/BH context by the SCSI drivers.
				56	* Try to get the locking right :)
				57	*
				58	*/
				59
				60
				61	/* About the global_state_lock
				62	Each state transition on an device holds a read lock. In case we have
				63	to evaluate the sync after dependencies, we grab a write lock, because
				64	we need stable states on all devices for that. */
				65	rwlock_t global_state_lock;
				66
				67	/* used for synchronous meta data and bitmap IO
				68	* submitted by drbd_md_sync_page_io()
				69	*/
				70	void drbd_md_io_complete(struct bio *bio, int error)
				71	{
				72	struct drbd_md_io *md_io;
				73
				74	md_io = (struct drbd_md_io *)bio->bi_private;
				75	md_io->error = error;
				76
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	77	complete(&md_io->event);
				78	}
				79
				80	/* reads on behalf of the partner,
				81	* "submitted" by the receiver
				82	*/
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	83	void drbd_endio_read_sec_final(struct drbd_epoch_entry *e) __releases(local)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	84	{
				85	unsigned long flags = 0;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	86	struct drbd_conf *mdev = e->mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	87
				88	D_ASSERT(e->block_id != ID_VACANT);
				89
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	90	spin_lock_irqsave(&mdev->req_lock, flags);
				91	mdev->read_cnt += e->size >> 9;
				92	list_del(&e->w.list);
				93	if (list_empty(&mdev->read_ee))
				94	wake_up(&mdev->ee_wait);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	95	if (test_bit(__EE_WAS_ERROR, &e->flags))
Andreas Gruenbacher	81e8465	2010-12-09 15:03:57 +0100	[diff] [blame]	96	__drbd_chk_io_error(mdev, false);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	97	spin_unlock_irqrestore(&mdev->req_lock, flags);
				98
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	99	drbd_queue_work(&mdev->data.work, &e->w);
				100	put_ldev(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	101	}
				102
				103	/* writes on behalf of the partner, or resync writes,
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	104	* "submitted" by the receiver, final stage. */
				105	static void drbd_endio_write_sec_final(struct drbd_epoch_entry *e) __releases(local)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	106	{
				107	unsigned long flags = 0;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	108	struct drbd_conf *mdev = e->mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	109	sector_t e_sector;
				110	int do_wake;
				111	int is_syncer_req;
				112	int do_al_complete_io;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	113
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	114	D_ASSERT(e->block_id != ID_VACANT);
				115
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	116	/* after we moved e to done_ee,
				117	* we may no longer access it,
				118	* it may be freed/reused already!
				119	* (as soon as we release the req_lock) */
				120	e_sector = e->sector;
				121	do_al_complete_io = e->flags & EE_CALL_AL_COMPLETE_IO;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	122	is_syncer_req = is_syncer_block_id(e->block_id);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	123
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	124	spin_lock_irqsave(&mdev->req_lock, flags);
				125	mdev->writ_cnt += e->size >> 9;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	126	list_del(&e->w.list); /* has been on active_ee or sync_ee */
				127	list_add_tail(&e->w.list, &mdev->done_ee);
				128
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	129	/* No hlist_del_init(&e->colision) here, we did not send the Ack yet,
				130	* neither did we wake possibly waiting conflicting requests.
				131	* done from "drbd_process_done_ee" within the appropriate w.cb
				132	* (e_end_block/e_end_resync_block) or from _drbd_clear_done_ee */
				133
				134	do_wake = is_syncer_req
				135	? list_empty(&mdev->sync_ee)
				136	: list_empty(&mdev->active_ee);
				137
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	138	if (test_bit(__EE_WAS_ERROR, &e->flags))
Andreas Gruenbacher	81e8465	2010-12-09 15:03:57 +0100	[diff] [blame]	139	__drbd_chk_io_error(mdev, false);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	140	spin_unlock_irqrestore(&mdev->req_lock, flags);
				141
				142	if (is_syncer_req)
				143	drbd_rs_complete_io(mdev, e_sector);
				144
				145	if (do_wake)
				146	wake_up(&mdev->ee_wait);
				147
				148	if (do_al_complete_io)
				149	drbd_al_complete_io(mdev, e_sector);
				150
				151	wake_asender(mdev);
				152	put_ldev(mdev);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	153	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	154
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	155	/* writes on behalf of the partner, or resync writes,
				156	* "submitted" by the receiver.
				157	*/
				158	void drbd_endio_sec(struct bio *bio, int error)
				159	{
				160	struct drbd_epoch_entry *e = bio->bi_private;
				161	struct drbd_conf *mdev = e->mdev;
				162	int uptodate = bio_flagged(bio, BIO_UPTODATE);
				163	int is_write = bio_data_dir(bio) == WRITE;
				164
Lars Ellenberg	0719427	2010-12-20 15:38:07 +0100	[diff] [blame]	165	if (error && __ratelimit(&drbd_ratelimit_state))
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	166	dev_warn(DEV, "%s: error=%d s=%llus\n",
				167	is_write ? "write" : "read", error,
				168	(unsigned long long)e->sector);
				169	if (!error && !uptodate) {
Lars Ellenberg	0719427	2010-12-20 15:38:07 +0100	[diff] [blame]	170	if (__ratelimit(&drbd_ratelimit_state))
				171	dev_warn(DEV, "%s: setting error to -EIO s=%llus\n",
				172	is_write ? "write" : "read",
				173	(unsigned long long)e->sector);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	174	/* strange behavior of some lower level drivers...
				175	* fail the request by clearing the uptodate flag,
				176	* but do not return any error?! */
				177	error = -EIO;
				178	}
				179
				180	if (error)
				181	set_bit(__EE_WAS_ERROR, &e->flags);
				182
				183	bio_put(bio); /* no need for the bio anymore */
				184	if (atomic_dec_and_test(&e->pending_bios)) {
				185	if (is_write)
				186	drbd_endio_write_sec_final(e);
				187	else
				188	drbd_endio_read_sec_final(e);
				189	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	190	}
				191
				192	/* read, readA or write requests on R_PRIMARY coming from drbd_make_request
				193	*/
				194	void drbd_endio_pri(struct bio *bio, int error)
				195	{
Lars Ellenberg	a115413	2010-11-13 20:42:29 +0100	[diff] [blame]	196	unsigned long flags;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	197	struct drbd_request *req = bio->bi_private;
				198	struct drbd_conf *mdev = req->mdev;
Lars Ellenberg	a115413	2010-11-13 20:42:29 +0100	[diff] [blame]	199	struct bio_and_error m;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	200	enum drbd_req_event what;
				201	int uptodate = bio_flagged(bio, BIO_UPTODATE);
				202
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	if (!error && !uptodate) {
				204	dev_warn(DEV, "p %s: setting error to -EIO\n",
				205	bio_data_dir(bio) == WRITE ? "write" : "read");
				206	/* strange behavior of some lower level drivers...
				207	* fail the request by clearing the uptodate flag,
				208	* but do not return any error?! */
				209	error = -EIO;
				210	}
				211
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	212	/* to avoid recursion in __req_mod */
				213	if (unlikely(error)) {
				214	what = (bio_data_dir(bio) == WRITE)
				215	? write_completed_with_error
Lars Ellenberg	5c3c7e6	2010-04-10 02:10:09 +0200	[diff] [blame]	216	: (bio_rw(bio) == READ)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	217	? read_completed_with_error
				218	: read_ahead_completed_with_error;
				219	} else
				220	what = completed_ok;
				221
				222	bio_put(req->private_bio);
				223	req->private_bio = ERR_PTR(error);
				224
Lars Ellenberg	a115413	2010-11-13 20:42:29 +0100	[diff] [blame]	225	/* not req_mod(), we need irqsave here! */
				226	spin_lock_irqsave(&mdev->req_lock, flags);
				227	__req_mod(req, what, &m);
				228	spin_unlock_irqrestore(&mdev->req_lock, flags);
				229
				230	if (m.bio)
				231	complete_master_bio(mdev, &m);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	232	}
				233
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	234	int w_read_retry_remote(struct drbd_conf mdev, struct drbd_work w, int cancel)
				235	{
				236	struct drbd_request *req = container_of(w, struct drbd_request, w);
				237
				238	/* We should not detach for read io-error,
				239	* but try to WRITE the P_DATA_REPLY to the failed location,
				240	* to give the disk the chance to relocate that block */
				241
				242	spin_lock_irq(&mdev->req_lock);
Lars Ellenberg	d255e5f	2010-05-27 09:45:45 +0200	[diff] [blame]	243	if (cancel \|\| mdev->state.pdsk != D_UP_TO_DATE) {
				244	_req_mod(req, read_retry_remote_canceled);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	245	spin_unlock_irq(&mdev->req_lock);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	246	return 1;
				247	}
				248	spin_unlock_irq(&mdev->req_lock);
				249
				250	return w_send_read_req(mdev, w, 0);
				251	}
				252
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	253	void drbd_csum_ee(struct drbd_conf mdev, struct crypto_hash tfm, struct drbd_epoch_entry e, void digest)
				254	{
				255	struct hash_desc desc;
				256	struct scatterlist sg;
				257	struct page *page = e->pages;
				258	struct page *tmp;
				259	unsigned len;
				260
				261	desc.tfm = tfm;
				262	desc.flags = 0;
				263
				264	sg_init_table(&sg, 1);
				265	crypto_hash_init(&desc);
				266
				267	while ((tmp = page_chain_next(page))) {
				268	/* all but the last page will be fully used */
				269	sg_set_page(&sg, page, PAGE_SIZE, 0);
				270	crypto_hash_update(&desc, &sg, sg.length);
				271	page = tmp;
				272	}
				273	/* and now the last, possibly only partially used page */
				274	len = e->size & (PAGE_SIZE - 1);
				275	sg_set_page(&sg, page, len ?: PAGE_SIZE, 0);
				276	crypto_hash_update(&desc, &sg, sg.length);
				277	crypto_hash_final(&desc, digest);
				278	}
				279
				280	void drbd_csum_bio(struct drbd_conf mdev, struct crypto_hash tfm, struct bio bio, void digest)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	281	{
				282	struct hash_desc desc;
				283	struct scatterlist sg;
				284	struct bio_vec *bvec;
				285	int i;
				286
				287	desc.tfm = tfm;
				288	desc.flags = 0;
				289
				290	sg_init_table(&sg, 1);
				291	crypto_hash_init(&desc);
				292
				293	__bio_for_each_segment(bvec, bio, i, 0) {
				294	sg_set_page(&sg, bvec->bv_page, bvec->bv_len, bvec->bv_offset);
				295	crypto_hash_update(&desc, &sg, sg.length);
				296	}
				297	crypto_hash_final(&desc, digest);
				298	}
				299
				300	static int w_e_send_csum(struct drbd_conf mdev, struct drbd_work w, int cancel)
				301	{
				302	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				303	int digest_size;
				304	void *digest;
				305	int ok;
				306
				307	D_ASSERT(e->block_id == DRBD_MAGIC + 0xbeef);
				308
				309	if (unlikely(cancel)) {
				310	drbd_free_ee(mdev, e);
				311	return 1;
				312	}
				313
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	314	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	315	digest_size = crypto_hash_digestsize(mdev->csums_tfm);
				316	digest = kmalloc(digest_size, GFP_NOIO);
				317	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	318	drbd_csum_ee(mdev, mdev->csums_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	319
				320	inc_rs_pending(mdev);
				321	ok = drbd_send_drequest_csum(mdev,
				322	e->sector,
				323	e->size,
				324	digest,
				325	digest_size,
				326	P_CSUM_RS_REQUEST);
				327	kfree(digest);
				328	} else {
				329	dev_err(DEV, "kmalloc() of digest failed.\n");
				330	ok = 0;
				331	}
				332	} else
				333	ok = 1;
				334
				335	drbd_free_ee(mdev, e);
				336
				337	if (unlikely(!ok))
				338	dev_err(DEV, "drbd_send_drequest(..., csum) failed\n");
				339	return ok;
				340	}
				341
				342	#define GFP_TRY (__GFP_HIGHMEM \| __GFP_NOWARN)
				343
				344	static int read_for_csum(struct drbd_conf *mdev, sector_t sector, int size)
				345	{
				346	struct drbd_epoch_entry *e;
				347
				348	if (!get_ldev(mdev))
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	349	return -EIO;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	350
Philipp Reisner	e3555d8	2010-11-07 15:56:29 +0100	[diff] [blame]	351	if (drbd_rs_should_slow_down(mdev, sector))
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	352	goto defer;
				353
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	354	/* GFP_TRY, because if there is no memory available right now, this may
				355	* be rescheduled for later. It is "only" background resync, after all. */
				356	e = drbd_alloc_ee(mdev, DRBD_MAGIC+0xbeef, sector, size, GFP_TRY);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	357	if (!e)
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	358	goto defer;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	359
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	360	e->w.cb = w_e_send_csum;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	361	spin_lock_irq(&mdev->req_lock);
				362	list_add(&e->w.list, &mdev->read_ee);
				363	spin_unlock_irq(&mdev->req_lock);
				364
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	365	atomic_add(size >> 9, &mdev->rs_sect_ev);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	366	if (drbd_submit_ee(mdev, e, READ, DRBD_FAULT_RS_RD) == 0)
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	367	return 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	368
Lars Ellenberg	10f6d99	2011-01-24 14:47:09 +0100	[diff] [blame]	369	/* If it failed because of ENOMEM, retry should help. If it failed
				370	* because bio_add_page failed (probably broken lower level driver),
				371	* retry may or may not help.
				372	* If it does not, you may need to force disconnect. */
Lars Ellenberg	22cc37a	2010-09-14 20:40:41 +0200	[diff] [blame]	373	spin_lock_irq(&mdev->req_lock);
				374	list_del(&e->w.list);
				375	spin_unlock_irq(&mdev->req_lock);
				376
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	377	drbd_free_ee(mdev, e);
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	378	defer:
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	379	put_ldev(mdev);
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	380	return -EAGAIN;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	381	}
				382
Philipp Reisner	794abb7	2010-12-27 11:51:23 +0100	[diff] [blame]	383	int w_resync_timer(struct drbd_conf mdev, struct drbd_work w, int cancel)
				384	{
				385	switch (mdev->state.conn) {
				386	case C_VERIFY_S:
				387	w_make_ov_request(mdev, w, cancel);
				388	break;
				389	case C_SYNC_TARGET:
				390	w_make_resync_request(mdev, w, cancel);
				391	break;
				392	}
				393
				394	return 1;
				395	}
				396
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	397	void resync_timer_fn(unsigned long data)
				398	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	399	struct drbd_conf mdev = (struct drbd_conf ) data;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	400
Philipp Reisner	794abb7	2010-12-27 11:51:23 +0100	[diff] [blame]	401	if (list_empty(&mdev->resync_work.list))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	402	drbd_queue_work(&mdev->data.work, &mdev->resync_work);
				403	}
				404
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	405	static void fifo_set(struct fifo_buffer *fb, int value)
				406	{
				407	int i;
				408
				409	for (i = 0; i < fb->size; i++)
Philipp Reisner	f10f262	2010-10-05 16:50:17 +0200	[diff] [blame]	410	fb->values[i] = value;
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	411	}
				412
				413	static int fifo_push(struct fifo_buffer *fb, int value)
				414	{
				415	int ov;
				416
				417	ov = fb->values[fb->head_index];
				418	fb->values[fb->head_index++] = value;
				419
				420	if (fb->head_index >= fb->size)
				421	fb->head_index = 0;
				422
				423	return ov;
				424	}
				425
				426	static void fifo_add_val(struct fifo_buffer *fb, int value)
				427	{
				428	int i;
				429
				430	for (i = 0; i < fb->size; i++)
				431	fb->values[i] += value;
				432	}
				433
Philipp Reisner	9d77a5f	2010-11-07 18:02:56 +0100	[diff] [blame]	434	static int drbd_rs_controller(struct drbd_conf *mdev)
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	435	{
				436	unsigned int sect_in; /* Number of sectors that came in since the last turn */
				437	unsigned int want; /* The number of sectors we want in the proxy */
				438	int req_sect; /* Number of sectors to request in this turn */
				439	int correction; /* Number of sectors more we need in the proxy*/
				440	int cps; /* correction per invocation of drbd_rs_controller() */
				441	int steps; /* Number of time steps to plan ahead */
				442	int curr_corr;
				443	int max_sect;
				444
				445	sect_in = atomic_xchg(&mdev->rs_sect_in, 0); /* Number of sectors that came in */
				446	mdev->rs_in_flight -= sect_in;
				447
				448	spin_lock(&mdev->peer_seq_lock); /* get an atomic view on mdev->rs_plan_s */
				449
				450	steps = mdev->rs_plan_s.size; /* (mdev->sync_conf.c_plan_ahead * 10 * SLEEP_TIME) / HZ; */
				451
				452	if (mdev->rs_in_flight + sect_in == 0) { /* At start of resync */
				453	want = ((mdev->sync_conf.rate * 2 * SLEEP_TIME) / HZ) * steps;
				454	} else { /* normal path */
				455	want = mdev->sync_conf.c_fill_target ? mdev->sync_conf.c_fill_target :
				456	sect_in * mdev->sync_conf.c_delay_target * HZ / (SLEEP_TIME * 10);
				457	}
				458
				459	correction = want - mdev->rs_in_flight - mdev->rs_planed;
				460
				461	/* Plan ahead */
				462	cps = correction / steps;
				463	fifo_add_val(&mdev->rs_plan_s, cps);
				464	mdev->rs_planed += cps * steps;
				465
				466	/* What we do in this step */
				467	curr_corr = fifo_push(&mdev->rs_plan_s, 0);
				468	spin_unlock(&mdev->peer_seq_lock);
				469	mdev->rs_planed -= curr_corr;
				470
				471	req_sect = sect_in + curr_corr;
				472	if (req_sect < 0)
				473	req_sect = 0;
				474
				475	max_sect = (mdev->sync_conf.c_max_rate * 2 * SLEEP_TIME) / HZ;
				476	if (req_sect > max_sect)
				477	req_sect = max_sect;
				478
				479	/*
				480	dev_warn(DEV, "si=%u if=%d wa=%u co=%d st=%d cps=%d pl=%d cc=%d rs=%d\n",
				481	sect_in, mdev->rs_in_flight, want, correction,
				482	steps, cps, mdev->rs_planed, curr_corr, req_sect);
				483	*/
				484
				485	return req_sect;
				486	}
				487
Philipp Reisner	9d77a5f	2010-11-07 18:02:56 +0100	[diff] [blame]	488	static int drbd_rs_number_requests(struct drbd_conf *mdev)
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	489	{
				490	int number;
				491	if (mdev->rs_plan_s.size) { /* mdev->sync_conf.c_plan_ahead */
				492	number = drbd_rs_controller(mdev) >> (BM_BLOCK_SHIFT - 9);
				493	mdev->c_sync_rate = number * HZ * (BM_BLOCK_SIZE / 1024) / SLEEP_TIME;
				494	} else {
				495	mdev->c_sync_rate = mdev->sync_conf.rate;
				496	number = SLEEP_TIME * mdev->c_sync_rate / ((BM_BLOCK_SIZE / 1024) * HZ);
				497	}
				498
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	499	/* ignore the amount of pending requests, the resync controller should
				500	* throttle down to incoming reply rate soon enough anyways. */
				501	return number;
				502	}
				503
Philipp Reisner	9d77a5f	2010-11-07 18:02:56 +0100	[diff] [blame]	504	static int w_make_resync_request(struct drbd_conf *mdev,
				505	struct drbd_work *w, int cancel)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	506	{
				507	unsigned long bit;
				508	sector_t sector;
				509	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	510	int max_bio_size;
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	511	int number, rollback_i, size;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	512	int align, queued, sndbuf;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	513	int i = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	514
				515	if (unlikely(cancel))
				516	return 1;
				517
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	518	if (mdev->rs_total == 0) {
				519	/* empty resync? */
				520	drbd_resync_finished(mdev);
				521	return 1;
				522	}
				523
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	524	if (!get_ldev(mdev)) {
				525	/* Since we only need to access mdev->rsync a
				526	get_ldev_if_state(mdev,D_FAILED) would be sufficient, but
				527	to continue resync with a broken disk makes no sense at
				528	all */
				529	dev_err(DEV, "Disk broke down during resync!\n");
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	530	return 1;
				531	}
				532
Lars Ellenberg	bb3d000	2010-05-14 19:08:55 +0200	[diff] [blame]	533	/* starting with drbd 8.3.8, we can handle multi-bio EEs,
				534	* if it should be necessary */
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	535	max_bio_size =
				536	mdev->agreed_pro_version < 94 ? queue_max_hw_sectors(mdev->rq_queue) << 9 :
				537	mdev->agreed_pro_version < 95 ? DRBD_MAX_SIZE_H80_PACKET : DRBD_MAX_BIO_SIZE;
Lars Ellenberg	bb3d000	2010-05-14 19:08:55 +0200	[diff] [blame]	538
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	539	number = drbd_rs_number_requests(mdev);
				540	if (number == 0)
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	541	goto requeue;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	542
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	543	for (i = 0; i < number; i++) {
				544	/* Stop generating RS requests, when half of the send buffer is filled */
				545	mutex_lock(&mdev->data.mutex);
				546	if (mdev->data.socket) {
				547	queued = mdev->data.socket->sk->sk_wmem_queued;
				548	sndbuf = mdev->data.socket->sk->sk_sndbuf;
				549	} else {
				550	queued = 1;
				551	sndbuf = 0;
				552	}
				553	mutex_unlock(&mdev->data.mutex);
				554	if (queued > sndbuf / 2)
				555	goto requeue;
				556
				557	next_sector:
				558	size = BM_BLOCK_SIZE;
				559	bit = drbd_bm_find_next(mdev, mdev->bm_resync_fo);
				560
Lars Ellenberg	4b0715f	2010-12-14 15:13:04 +0100	[diff] [blame]	561	if (bit == DRBD_END_OF_BITMAP) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	562	mdev->bm_resync_fo = drbd_bm_bits(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	563	put_ldev(mdev);
				564	return 1;
				565	}
				566
				567	sector = BM_BIT_TO_SECT(bit);
				568
Philipp Reisner	e3555d8	2010-11-07 15:56:29 +0100	[diff] [blame]	569	if (drbd_rs_should_slow_down(mdev, sector) \|\|
				570	drbd_try_rs_begin_io(mdev, sector)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	571	mdev->bm_resync_fo = bit;
				572	goto requeue;
				573	}
				574	mdev->bm_resync_fo = bit + 1;
				575
				576	if (unlikely(drbd_bm_test_bit(mdev, bit) == 0)) {
				577	drbd_rs_complete_io(mdev, sector);
				578	goto next_sector;
				579	}
				580
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	581	#if DRBD_MAX_BIO_SIZE > BM_BLOCK_SIZE
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	582	/* try to find some adjacent bits.
				583	* we stop if we have already the maximum req size.
				584	*
				585	* Additionally always align bigger requests, in order to
				586	* be prepared for all stripe sizes of software RAIDs.
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	587	*/
				588	align = 1;
Philipp Reisner	d207450	2010-07-22 15:27:27 +0200	[diff] [blame]	589	rollback_i = i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	590	for (;;) {
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	591	if (size + BM_BLOCK_SIZE > max_bio_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	592	break;
				593
				594	/* Be always aligned */
				595	if (sector & ((1<<(align+3))-1))
				596	break;
				597
				598	/* do not cross extent boundaries */
				599	if (((bit+1) & BM_BLOCKS_PER_BM_EXT_MASK) == 0)
				600	break;
				601	/* now, is it actually dirty, after all?
				602	* caution, drbd_bm_test_bit is tri-state for some
				603	* obscure reason; ( b == 0 ) would get the out-of-band
				604	* only accidentally right because of the "oddly sized"
				605	* adjustment below */
				606	if (drbd_bm_test_bit(mdev, bit+1) != 1)
				607	break;
				608	bit++;
				609	size += BM_BLOCK_SIZE;
				610	if ((BM_BLOCK_SIZE << align) <= size)
				611	align++;
				612	i++;
				613	}
				614	/* if we merged some,
				615	* reset the offset to start the next drbd_bm_find_next from */
				616	if (size > BM_BLOCK_SIZE)
				617	mdev->bm_resync_fo = bit + 1;
				618	#endif
				619
				620	/* adjust very last sectors, in case we are oddly sized */
				621	if (sector + (size>>9) > capacity)
				622	size = (capacity-sector)<<9;
				623	if (mdev->agreed_pro_version >= 89 && mdev->csums_tfm) {
				624	switch (read_for_csum(mdev, sector, size)) {
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	625	case -EIO: /* Disk failure */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	626	put_ldev(mdev);
				627	return 0;
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	628	case -EAGAIN: /* allocation failed, or ldev busy */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	629	drbd_rs_complete_io(mdev, sector);
				630	mdev->bm_resync_fo = BM_SECT_TO_BIT(sector);
Philipp Reisner	d207450	2010-07-22 15:27:27 +0200	[diff] [blame]	631	i = rollback_i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	632	goto requeue;
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	633	case 0:
				634	/* everything ok */
				635	break;
				636	default:
				637	BUG();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	638	}
				639	} else {
				640	inc_rs_pending(mdev);
				641	if (!drbd_send_drequest(mdev, P_RS_DATA_REQUEST,
				642	sector, size, ID_SYNCER)) {
				643	dev_err(DEV, "drbd_send_drequest() failed, aborting...\n");
				644	dec_rs_pending(mdev);
				645	put_ldev(mdev);
				646	return 0;
				647	}
				648	}
				649	}
				650
				651	if (mdev->bm_resync_fo >= drbd_bm_bits(mdev)) {
				652	/* last syncer _request_ was sent,
				653	* but the P_RS_DATA_REPLY not yet received. sync will end (and
				654	* next sync group will resume), as soon as we receive the last
				655	* resync data block, and the last bit is cleared.
				656	* until then resync "work" is "inactive" ...
				657	*/
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	658	put_ldev(mdev);
				659	return 1;
				660	}
				661
				662	requeue:
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	663	mdev->rs_in_flight += (i << (BM_BLOCK_SHIFT - 9));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	664	mod_timer(&mdev->resync_timer, jiffies + SLEEP_TIME);
				665	put_ldev(mdev);
				666	return 1;
				667	}
				668
				669	static int w_make_ov_request(struct drbd_conf mdev, struct drbd_work w, int cancel)
				670	{
				671	int number, i, size;
				672	sector_t sector;
				673	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
				674
				675	if (unlikely(cancel))
				676	return 1;
				677
Lars Ellenberg	2649f08	2010-11-05 10:05:47 +0100	[diff] [blame]	678	number = drbd_rs_number_requests(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	679
				680	sector = mdev->ov_position;
				681	for (i = 0; i < number; i++) {
				682	if (sector >= capacity) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	683	return 1;
				684	}
				685
				686	size = BM_BLOCK_SIZE;
				687
Philipp Reisner	e3555d8	2010-11-07 15:56:29 +0100	[diff] [blame]	688	if (drbd_rs_should_slow_down(mdev, sector) \|\|
				689	drbd_try_rs_begin_io(mdev, sector)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	690	mdev->ov_position = sector;
				691	goto requeue;
				692	}
				693
				694	if (sector + (size>>9) > capacity)
				695	size = (capacity-sector)<<9;
				696
				697	inc_rs_pending(mdev);
				698	if (!drbd_send_ov_request(mdev, sector, size)) {
				699	dec_rs_pending(mdev);
				700	return 0;
				701	}
				702	sector += BM_SECT_PER_BIT;
				703	}
				704	mdev->ov_position = sector;
				705
				706	requeue:
Lars Ellenberg	2649f08	2010-11-05 10:05:47 +0100	[diff] [blame]	707	mdev->rs_in_flight += (i << (BM_BLOCK_SHIFT - 9));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	708	mod_timer(&mdev->resync_timer, jiffies + SLEEP_TIME);
				709	return 1;
				710	}
				711
Philipp Reisner	c4752ef	2010-10-27 17:32:36 +0200	[diff] [blame]	712
Philipp Reisner	370a43e	2011-01-14 16:03:11 +0100	[diff] [blame]	713	void start_resync_timer_fn(unsigned long data)
				714	{
				715	struct drbd_conf mdev = (struct drbd_conf ) data;
				716
				717	drbd_queue_work(&mdev->data.work, &mdev->start_resync_work);
				718	}
				719
Philipp Reisner	c4752ef	2010-10-27 17:32:36 +0200	[diff] [blame]	720	int w_start_resync(struct drbd_conf mdev, struct drbd_work w, int cancel)
				721	{
Philipp Reisner	370a43e	2011-01-14 16:03:11 +0100	[diff] [blame]	722	if (atomic_read(&mdev->unacked_cnt) \|\| atomic_read(&mdev->rs_pending_cnt)) {
				723	dev_warn(DEV, "w_start_resync later...\n");
				724	mdev->start_resync_timer.expires = jiffies + HZ/10;
				725	add_timer(&mdev->start_resync_timer);
				726	return 1;
				727	}
Philipp Reisner	c4752ef	2010-10-27 17:32:36 +0200	[diff] [blame]	728
Philipp Reisner	370a43e	2011-01-14 16:03:11 +0100	[diff] [blame]	729	drbd_start_resync(mdev, C_SYNC_SOURCE);
				730	clear_bit(AHEAD_TO_SYNC_SOURCE, &mdev->current_epoch->flags);
Philipp Reisner	c4752ef	2010-10-27 17:32:36 +0200	[diff] [blame]	731	return 1;
				732	}
				733
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	734	int w_ov_finished(struct drbd_conf mdev, struct drbd_work w, int cancel)
				735	{
				736	kfree(w);
				737	ov_oos_print(mdev);
				738	drbd_resync_finished(mdev);
				739
				740	return 1;
				741	}
				742
				743	static int w_resync_finished(struct drbd_conf mdev, struct drbd_work w, int cancel)
				744	{
				745	kfree(w);
				746
				747	drbd_resync_finished(mdev);
				748
				749	return 1;
				750	}
				751
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	752	static void ping_peer(struct drbd_conf *mdev)
				753	{
				754	clear_bit(GOT_PING_ACK, &mdev->flags);
				755	request_ping(mdev);
				756	wait_event(mdev->misc_wait,
				757	test_bit(GOT_PING_ACK, &mdev->flags) \|\| mdev->state.conn < C_CONNECTED);
				758	}
				759
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	760	int drbd_resync_finished(struct drbd_conf *mdev)
				761	{
				762	unsigned long db, dt, dbdt;
				763	unsigned long n_oos;
				764	union drbd_state os, ns;
				765	struct drbd_work *w;
				766	char *khelper_cmd = NULL;
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	767	int verify_done = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	768
				769	/* Remove all elements from the resync LRU. Since future actions
				770	* might set bits in the (main) bitmap, then the entries in the
				771	* resync LRU would be wrong. */
				772	if (drbd_rs_del_all(mdev)) {
				773	/* In case this is not possible now, most probably because
				774	* there are P_RS_DATA_REPLY Packets lingering on the worker's
				775	* queue (or even the read operations for those packets
				776	* is not finished by now). Retry in 100ms. */
				777
Philipp Reisner	20ee639	2011-01-18 15:28:59 +0100	[diff] [blame]	778	schedule_timeout_interruptible(HZ / 10);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	779	w = kmalloc(sizeof(struct drbd_work), GFP_ATOMIC);
				780	if (w) {
				781	w->cb = w_resync_finished;
				782	drbd_queue_work(&mdev->data.work, w);
				783	return 1;
				784	}
				785	dev_err(DEV, "Warn failed to drbd_rs_del_all() and to kmalloc(w).\n");
				786	}
				787
				788	dt = (jiffies - mdev->rs_start - mdev->rs_paused) / HZ;
				789	if (dt <= 0)
				790	dt = 1;
				791	db = mdev->rs_total;
				792	dbdt = Bit2KB(db/dt);
				793	mdev->rs_paused /= HZ;
				794
				795	if (!get_ldev(mdev))
				796	goto out;
				797
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	798	ping_peer(mdev);
				799
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	800	spin_lock_irq(&mdev->req_lock);
				801	os = mdev->state;
				802
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	803	verify_done = (os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T);
				804
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	805	/* This protects us against multiple calls (that can happen in the presence
				806	of application IO), and against connectivity loss just before we arrive here. */
				807	if (os.conn <= C_CONNECTED)
				808	goto out_unlock;
				809
				810	ns = os;
				811	ns.conn = C_CONNECTED;
				812
				813	dev_info(DEV, "%s done (total %lu sec; paused %lu sec; %lu K/sec)\n",
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	814	verify_done ? "Online verify " : "Resync",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	815	dt + mdev->rs_paused, mdev->rs_paused, dbdt);
				816
				817	n_oos = drbd_bm_total_weight(mdev);
				818
				819	if (os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) {
				820	if (n_oos) {
				821	dev_alert(DEV, "Online verify found %lu %dk block out of sync!\n",
				822	n_oos, Bit2KB(1));
				823	khelper_cmd = "out-of-sync";
				824	}
				825	} else {
				826	D_ASSERT((n_oos - mdev->rs_failed) == 0);
				827
				828	if (os.conn == C_SYNC_TARGET \|\| os.conn == C_PAUSED_SYNC_T)
				829	khelper_cmd = "after-resync-target";
				830
				831	if (mdev->csums_tfm && mdev->rs_total) {
				832	const unsigned long s = mdev->rs_same_csum;
				833	const unsigned long t = mdev->rs_total;
				834	const int ratio =
				835	(t == 0) ? 0 :
				836	(t < 100000) ? ((s*100)/t) : (s/(t/100));
				837	dev_info(DEV, "%u %% had equal check sums, eliminated: %luK; "
				838	"transferred %luK total %luK\n",
				839	ratio,
				840	Bit2KB(mdev->rs_same_csum),
				841	Bit2KB(mdev->rs_total - mdev->rs_same_csum),
				842	Bit2KB(mdev->rs_total));
				843	}
				844	}
				845
				846	if (mdev->rs_failed) {
				847	dev_info(DEV, " %lu failed blocks\n", mdev->rs_failed);
				848
				849	if (os.conn == C_SYNC_TARGET \|\| os.conn == C_PAUSED_SYNC_T) {
				850	ns.disk = D_INCONSISTENT;
				851	ns.pdsk = D_UP_TO_DATE;
				852	} else {
				853	ns.disk = D_UP_TO_DATE;
				854	ns.pdsk = D_INCONSISTENT;
				855	}
				856	} else {
				857	ns.disk = D_UP_TO_DATE;
				858	ns.pdsk = D_UP_TO_DATE;
				859
				860	if (os.conn == C_SYNC_TARGET \|\| os.conn == C_PAUSED_SYNC_T) {
				861	if (mdev->p_uuid) {
				862	int i;
				863	for (i = UI_BITMAP ; i <= UI_HISTORY_END ; i++)
				864	_drbd_uuid_set(mdev, i, mdev->p_uuid[i]);
				865	drbd_uuid_set(mdev, UI_BITMAP, mdev->ldev->md.uuid[UI_CURRENT]);
				866	_drbd_uuid_set(mdev, UI_CURRENT, mdev->p_uuid[UI_CURRENT]);
				867	} else {
				868	dev_err(DEV, "mdev->p_uuid is NULL! BUG\n");
				869	}
				870	}
				871
Lars Ellenberg	62b0da3	2011-01-20 13:25:21 +0100	[diff] [blame]	872	if (!(os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T)) {
				873	/* for verify runs, we don't update uuids here,
				874	* so there would be nothing to report. */
				875	drbd_uuid_set_bm(mdev, 0UL);
				876	drbd_print_uuids(mdev, "updated UUIDs");
				877	if (mdev->p_uuid) {
				878	/* Now the two UUID sets are equal, update what we
				879	* know of the peer. */
				880	int i;
				881	for (i = UI_CURRENT ; i <= UI_HISTORY_END ; i++)
				882	mdev->p_uuid[i] = mdev->ldev->md.uuid[i];
				883	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	884	}
				885	}
				886
				887	_drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
				888	out_unlock:
				889	spin_unlock_irq(&mdev->req_lock);
				890	put_ldev(mdev);
				891	out:
				892	mdev->rs_total = 0;
				893	mdev->rs_failed = 0;
				894	mdev->rs_paused = 0;
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	895	if (verify_done)
				896	mdev->ov_start_sector = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	897
Lars Ellenberg	13d4268	2010-10-13 17:37:54 +0200	[diff] [blame]	898	drbd_md_sync(mdev);
				899
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	900	if (khelper_cmd)
				901	drbd_khelper(mdev, khelper_cmd);
				902
				903	return 1;
				904	}
				905
				906	/* helper */
				907	static void move_to_net_ee_or_free(struct drbd_conf mdev, struct drbd_epoch_entry e)
				908	{
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	909	if (drbd_ee_has_active_page(e)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	910	/* This might happen if sendpage() has not finished */
Lars Ellenberg	78db892	2010-09-13 13:27:10 +0200	[diff] [blame]	911	int i = (e->size + PAGE_SIZE -1) >> PAGE_SHIFT;
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	912	atomic_add(i, &mdev->pp_in_use_by_net);
				913	atomic_sub(i, &mdev->pp_in_use);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	914	spin_lock_irq(&mdev->req_lock);
				915	list_add_tail(&e->w.list, &mdev->net_ee);
				916	spin_unlock_irq(&mdev->req_lock);
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	917	wake_up(&drbd_pp_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	918	} else
				919	drbd_free_ee(mdev, e);
				920	}
				921
				922	/**
				923	* w_e_end_data_req() - Worker callback, to send a P_DATA_REPLY packet in response to a P_DATA_REQUEST
				924	* @mdev: DRBD device.
				925	* @w: work object.
				926	* @cancel: The connection will be closed anyways
				927	*/
				928	int w_e_end_data_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				929	{
				930	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				931	int ok;
				932
				933	if (unlikely(cancel)) {
				934	drbd_free_ee(mdev, e);
				935	dec_unacked(mdev);
				936	return 1;
				937	}
				938
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	939	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	940	ok = drbd_send_block(mdev, P_DATA_REPLY, e);
				941	} else {
				942	if (__ratelimit(&drbd_ratelimit_state))
				943	dev_err(DEV, "Sending NegDReply. sector=%llus.\n",
				944	(unsigned long long)e->sector);
				945
				946	ok = drbd_send_ack(mdev, P_NEG_DREPLY, e);
				947	}
				948
				949	dec_unacked(mdev);
				950
				951	move_to_net_ee_or_free(mdev, e);
				952
				953	if (unlikely(!ok))
				954	dev_err(DEV, "drbd_send_block() failed\n");
				955	return ok;
				956	}
				957
				958	/**
				959	* w_e_end_rsdata_req() - Worker callback to send a P_RS_DATA_REPLY packet in response to a P_RS_DATA_REQUESTRS
				960	* @mdev: DRBD device.
				961	* @w: work object.
				962	* @cancel: The connection will be closed anyways
				963	*/
				964	int w_e_end_rsdata_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				965	{
				966	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				967	int ok;
				968
				969	if (unlikely(cancel)) {
				970	drbd_free_ee(mdev, e);
				971	dec_unacked(mdev);
				972	return 1;
				973	}
				974
				975	if (get_ldev_if_state(mdev, D_FAILED)) {
				976	drbd_rs_complete_io(mdev, e->sector);
				977	put_ldev(mdev);
				978	}
				979
Philipp Reisner	d612d30	2010-12-27 10:53:28 +0100	[diff] [blame]	980	if (mdev->state.conn == C_AHEAD) {
				981	ok = drbd_send_ack(mdev, P_RS_CANCEL, e);
				982	} else if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	983	if (likely(mdev->state.pdsk >= D_INCONSISTENT)) {
				984	inc_rs_pending(mdev);
				985	ok = drbd_send_block(mdev, P_RS_DATA_REPLY, e);
				986	} else {
				987	if (__ratelimit(&drbd_ratelimit_state))
				988	dev_err(DEV, "Not sending RSDataReply, "
				989	"partner DISKLESS!\n");
				990	ok = 1;
				991	}
				992	} else {
				993	if (__ratelimit(&drbd_ratelimit_state))
				994	dev_err(DEV, "Sending NegRSDReply. sector %llus.\n",
				995	(unsigned long long)e->sector);
				996
				997	ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
				998
				999	/* update resync data with failure */
				1000	drbd_rs_failed_io(mdev, e->sector, e->size);
				1001	}
				1002
				1003	dec_unacked(mdev);
				1004
				1005	move_to_net_ee_or_free(mdev, e);
				1006
				1007	if (unlikely(!ok))
				1008	dev_err(DEV, "drbd_send_block() failed\n");
				1009	return ok;
				1010	}
				1011
				1012	int w_e_end_csum_rs_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1013	{
				1014	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				1015	struct digest_info *di;
				1016	int digest_size;
				1017	void *digest = NULL;
				1018	int ok, eq = 0;
				1019
				1020	if (unlikely(cancel)) {
				1021	drbd_free_ee(mdev, e);
				1022	dec_unacked(mdev);
				1023	return 1;
				1024	}
				1025
Lars Ellenberg	1d53f09	2010-09-05 01:13:24 +0200	[diff] [blame]	1026	if (get_ldev(mdev)) {
				1027	drbd_rs_complete_io(mdev, e->sector);
				1028	put_ldev(mdev);
				1029	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1030
Philipp Reisner	8571957	2010-07-21 10:20:17 +0200	[diff] [blame]	1031	di = e->digest;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1032
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1033	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1034	/* quick hack to try to avoid a race against reconfiguration.
				1035	* a real fix would be much more involved,
				1036	* introducing more locking mechanisms */
				1037	if (mdev->csums_tfm) {
				1038	digest_size = crypto_hash_digestsize(mdev->csums_tfm);
				1039	D_ASSERT(digest_size == di->digest_size);
				1040	digest = kmalloc(digest_size, GFP_NOIO);
				1041	}
				1042	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1043	drbd_csum_ee(mdev, mdev->csums_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1044	eq = !memcmp(digest, di->digest, digest_size);
				1045	kfree(digest);
				1046	}
				1047
				1048	if (eq) {
				1049	drbd_set_in_sync(mdev, e->sector, e->size);
Lars Ellenberg	676396d	2010-03-03 02:08:22 +0100	[diff] [blame]	1050	/* rs_same_csums unit is BM_BLOCK_SIZE */
				1051	mdev->rs_same_csum += e->size >> BM_BLOCK_SHIFT;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1052	ok = drbd_send_ack(mdev, P_RS_IS_IN_SYNC, e);
				1053	} else {
				1054	inc_rs_pending(mdev);
Philipp Reisner	204bba9	2010-08-23 16:17:13 +0200	[diff] [blame]	1055	e->block_id = ID_SYNCER; /* By setting block_id, digest pointer becomes invalid! */
				1056	e->flags &= ~EE_HAS_DIGEST; /* This e no longer has a digest pointer */
				1057	kfree(di);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1058	ok = drbd_send_block(mdev, P_RS_DATA_REPLY, e);
				1059	}
				1060	} else {
				1061	ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
				1062	if (__ratelimit(&drbd_ratelimit_state))
				1063	dev_err(DEV, "Sending NegDReply. I guess it gets messy.\n");
				1064	}
				1065
				1066	dec_unacked(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1067	move_to_net_ee_or_free(mdev, e);
				1068
				1069	if (unlikely(!ok))
				1070	dev_err(DEV, "drbd_send_block/ack() failed\n");
				1071	return ok;
				1072	}
				1073
				1074	int w_e_end_ov_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1075	{
				1076	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				1077	int digest_size;
				1078	void *digest;
				1079	int ok = 1;
				1080
				1081	if (unlikely(cancel))
				1082	goto out;
				1083
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1084	if (unlikely((e->flags & EE_WAS_ERROR) != 0))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1085	goto out;
				1086
				1087	digest_size = crypto_hash_digestsize(mdev->verify_tfm);
				1088	/* FIXME if this allocation fails, online verify will not terminate! */
				1089	digest = kmalloc(digest_size, GFP_NOIO);
				1090	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1091	drbd_csum_ee(mdev, mdev->verify_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1092	inc_rs_pending(mdev);
				1093	ok = drbd_send_drequest_csum(mdev, e->sector, e->size,
				1094	digest, digest_size, P_OV_REPLY);
				1095	if (!ok)
				1096	dec_rs_pending(mdev);
				1097	kfree(digest);
				1098	}
				1099
				1100	out:
				1101	drbd_free_ee(mdev, e);
				1102
				1103	dec_unacked(mdev);
				1104
				1105	return ok;
				1106	}
				1107
				1108	void drbd_ov_oos_found(struct drbd_conf *mdev, sector_t sector, int size)
				1109	{
				1110	if (mdev->ov_last_oos_start + mdev->ov_last_oos_size == sector) {
				1111	mdev->ov_last_oos_size += size>>9;
				1112	} else {
				1113	mdev->ov_last_oos_start = sector;
				1114	mdev->ov_last_oos_size = size>>9;
				1115	}
				1116	drbd_set_out_of_sync(mdev, sector, size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1117	}
				1118
				1119	int w_e_end_ov_reply(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1120	{
				1121	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				1122	struct digest_info *di;
				1123	int digest_size;
				1124	void *digest;
				1125	int ok, eq = 0;
				1126
				1127	if (unlikely(cancel)) {
				1128	drbd_free_ee(mdev, e);
				1129	dec_unacked(mdev);
				1130	return 1;
				1131	}
				1132
				1133	/* after "cancel", because after drbd_disconnect/drbd_rs_cancel_all
				1134	* the resync lru has been cleaned up already */
Lars Ellenberg	1d53f09	2010-09-05 01:13:24 +0200	[diff] [blame]	1135	if (get_ldev(mdev)) {
				1136	drbd_rs_complete_io(mdev, e->sector);
				1137	put_ldev(mdev);
				1138	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1139
Philipp Reisner	8571957	2010-07-21 10:20:17 +0200	[diff] [blame]	1140	di = e->digest;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1141
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1142	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1143	digest_size = crypto_hash_digestsize(mdev->verify_tfm);
				1144	digest = kmalloc(digest_size, GFP_NOIO);
				1145	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1146	drbd_csum_ee(mdev, mdev->verify_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1147
				1148	D_ASSERT(digest_size == di->digest_size);
				1149	eq = !memcmp(digest, di->digest, digest_size);
				1150	kfree(digest);
				1151	}
				1152	} else {
				1153	ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
				1154	if (__ratelimit(&drbd_ratelimit_state))
				1155	dev_err(DEV, "Sending NegDReply. I guess it gets messy.\n");
				1156	}
				1157
				1158	dec_unacked(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1159	if (!eq)
				1160	drbd_ov_oos_found(mdev, e->sector, e->size);
				1161	else
				1162	ov_oos_print(mdev);
				1163
				1164	ok = drbd_send_ack_ex(mdev, P_OV_RESULT, e->sector, e->size,
				1165	eq ? ID_IN_SYNC : ID_OUT_OF_SYNC);
				1166
				1167	drbd_free_ee(mdev, e);
				1168
Lars Ellenberg	ea5442a	2010-11-05 09:48:01 +0100	[diff] [blame]	1169	--mdev->ov_left;
				1170
				1171	/* let's advance progress step marks only for every other megabyte */
				1172	if ((mdev->ov_left & 0x200) == 0x200)
				1173	drbd_advance_rs_marks(mdev, mdev->ov_left);
				1174
				1175	if (mdev->ov_left == 0) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1176	ov_oos_print(mdev);
				1177	drbd_resync_finished(mdev);
				1178	}
				1179
				1180	return ok;
				1181	}
				1182
				1183	int w_prev_work_done(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1184	{
				1185	struct drbd_wq_barrier *b = container_of(w, struct drbd_wq_barrier, w);
				1186	complete(&b->done);
				1187	return 1;
				1188	}
				1189
				1190	int w_send_barrier(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1191	{
				1192	struct drbd_tl_epoch *b = container_of(w, struct drbd_tl_epoch, w);
				1193	struct p_barrier *p = &mdev->data.sbuf.barrier;
				1194	int ok = 1;
				1195
				1196	/* really avoid racing with tl_clear. w.cb may have been referenced
				1197	* just before it was reassigned and re-queued, so double check that.
				1198	* actually, this race was harmless, since we only try to send the
				1199	* barrier packet here, and otherwise do nothing with the object.
				1200	* but compare with the head of w_clear_epoch */
				1201	spin_lock_irq(&mdev->req_lock);
				1202	if (w->cb != w_send_barrier \|\| mdev->state.conn < C_CONNECTED)
				1203	cancel = 1;
				1204	spin_unlock_irq(&mdev->req_lock);
				1205	if (cancel)
				1206	return 1;
				1207
				1208	if (!drbd_get_data_sock(mdev))
				1209	return 0;
				1210	p->barrier = b->br_number;
				1211	/* inc_ap_pending was done where this was queued.
				1212	* dec_ap_pending will be done in got_BarrierAck
				1213	* or (on connection loss) in w_clear_epoch. */
				1214	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BARRIER,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1215	(struct p_header80 )p, sizeof(p), 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1216	drbd_put_data_sock(mdev);
				1217
				1218	return ok;
				1219	}
				1220
				1221	int w_send_write_hint(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1222	{
				1223	if (cancel)
				1224	return 1;
				1225	return drbd_send_short_cmd(mdev, P_UNPLUG_REMOTE);
				1226	}
				1227
Philipp Reisner	73a01a1	2010-10-27 14:33:00 +0200	[diff] [blame]	1228	int w_send_oos(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1229	{
				1230	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1231	int ok;
				1232
				1233	if (unlikely(cancel)) {
				1234	req_mod(req, send_canceled);
				1235	return 1;
				1236	}
				1237
				1238	ok = drbd_send_oos(mdev, req);
				1239	req_mod(req, oos_handed_to_network);
				1240
				1241	return ok;
				1242	}
				1243
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1244	/**
				1245	* w_send_dblock() - Worker callback to send a P_DATA packet in order to mirror a write request
				1246	* @mdev: DRBD device.
				1247	* @w: work object.
				1248	* @cancel: The connection will be closed anyways
				1249	*/
				1250	int w_send_dblock(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1251	{
				1252	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1253	int ok;
				1254
				1255	if (unlikely(cancel)) {
				1256	req_mod(req, send_canceled);
				1257	return 1;
				1258	}
				1259
				1260	ok = drbd_send_dblock(mdev, req);
				1261	req_mod(req, ok ? handed_over_to_network : send_failed);
				1262
				1263	return ok;
				1264	}
				1265
				1266	/**
				1267	* w_send_read_req() - Worker callback to send a read request (P_DATA_REQUEST) packet
				1268	* @mdev: DRBD device.
				1269	* @w: work object.
				1270	* @cancel: The connection will be closed anyways
				1271	*/
				1272	int w_send_read_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1273	{
				1274	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1275	int ok;
				1276
				1277	if (unlikely(cancel)) {
				1278	req_mod(req, send_canceled);
				1279	return 1;
				1280	}
				1281
				1282	ok = drbd_send_drequest(mdev, P_DATA_REQUEST, req->sector, req->size,
				1283	(unsigned long)req);
				1284
				1285	if (!ok) {
				1286	/* ?? we set C_TIMEOUT or C_BROKEN_PIPE in drbd_send();
				1287	* so this is probably redundant */
				1288	if (mdev->state.conn >= C_CONNECTED)
				1289	drbd_force_state(mdev, NS(conn, C_NETWORK_FAILURE));
				1290	}
				1291	req_mod(req, ok ? handed_over_to_network : send_failed);
				1292
				1293	return ok;
				1294	}
				1295
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1296	int w_restart_disk_io(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1297	{
				1298	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1299
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	1300	if (bio_data_dir(req->master_bio) == WRITE && req->rq_state & RQ_IN_ACT_LOG)
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1301	drbd_al_begin_io(mdev, req->sector);
				1302	/* Calling drbd_al_begin_io() out of the worker might deadlocks
				1303	theoretically. Practically it can not deadlock, since this is
				1304	only used when unfreezing IOs. All the extents of the requests
				1305	that made it into the TL are already active */
				1306
				1307	drbd_req_make_private_bio(req, req->master_bio);
				1308	req->private_bio->bi_bdev = mdev->ldev->backing_bdev;
				1309	generic_make_request(req->private_bio);
				1310
				1311	return 1;
				1312	}
				1313
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1314	static int _drbd_may_sync_now(struct drbd_conf *mdev)
				1315	{
				1316	struct drbd_conf *odev = mdev;
				1317
				1318	while (1) {
				1319	if (odev->sync_conf.after == -1)
				1320	return 1;
				1321	odev = minor_to_mdev(odev->sync_conf.after);
				1322	ERR_IF(!odev) return 1;
				1323	if ((odev->state.conn >= C_SYNC_SOURCE &&
				1324	odev->state.conn <= C_PAUSED_SYNC_T) \|\|
				1325	odev->state.aftr_isp \|\| odev->state.peer_isp \|\|
				1326	odev->state.user_isp)
				1327	return 0;
				1328	}
				1329	}
				1330
				1331	/**
				1332	* _drbd_pause_after() - Pause resync on all devices that may not resync now
				1333	* @mdev: DRBD device.
				1334	*
				1335	* Called from process context only (admin command and after_state_ch).
				1336	*/
				1337	static int _drbd_pause_after(struct drbd_conf *mdev)
				1338	{
				1339	struct drbd_conf *odev;
				1340	int i, rv = 0;
				1341
				1342	for (i = 0; i < minor_count; i++) {
				1343	odev = minor_to_mdev(i);
				1344	if (!odev)
				1345	continue;
				1346	if (odev->state.conn == C_STANDALONE && odev->state.disk == D_DISKLESS)
				1347	continue;
				1348	if (!_drbd_may_sync_now(odev))
				1349	rv \|= (__drbd_set_state(_NS(odev, aftr_isp, 1), CS_HARD, NULL)
				1350	!= SS_NOTHING_TO_DO);
				1351	}
				1352
				1353	return rv;
				1354	}
				1355
				1356	/**
				1357	* _drbd_resume_next() - Resume resync on all devices that may resync now
				1358	* @mdev: DRBD device.
				1359	*
				1360	* Called from process context only (admin command and worker).
				1361	*/
				1362	static int _drbd_resume_next(struct drbd_conf *mdev)
				1363	{
				1364	struct drbd_conf *odev;
				1365	int i, rv = 0;
				1366
				1367	for (i = 0; i < minor_count; i++) {
				1368	odev = minor_to_mdev(i);
				1369	if (!odev)
				1370	continue;
				1371	if (odev->state.conn == C_STANDALONE && odev->state.disk == D_DISKLESS)
				1372	continue;
				1373	if (odev->state.aftr_isp) {
				1374	if (_drbd_may_sync_now(odev))
				1375	rv \|= (__drbd_set_state(_NS(odev, aftr_isp, 0),
				1376	CS_HARD, NULL)
				1377	!= SS_NOTHING_TO_DO) ;
				1378	}
				1379	}
				1380	return rv;
				1381	}
				1382
				1383	void resume_next_sg(struct drbd_conf *mdev)
				1384	{
				1385	write_lock_irq(&global_state_lock);
				1386	_drbd_resume_next(mdev);
				1387	write_unlock_irq(&global_state_lock);
				1388	}
				1389
				1390	void suspend_other_sg(struct drbd_conf *mdev)
				1391	{
				1392	write_lock_irq(&global_state_lock);
				1393	_drbd_pause_after(mdev);
				1394	write_unlock_irq(&global_state_lock);
				1395	}
				1396
				1397	static int sync_after_error(struct drbd_conf *mdev, int o_minor)
				1398	{
				1399	struct drbd_conf *odev;
				1400
				1401	if (o_minor == -1)
				1402	return NO_ERROR;
				1403	if (o_minor < -1 \|\| minor_to_mdev(o_minor) == NULL)
				1404	return ERR_SYNC_AFTER;
				1405
				1406	/* check for loops */
				1407	odev = minor_to_mdev(o_minor);
				1408	while (1) {
				1409	if (odev == mdev)
				1410	return ERR_SYNC_AFTER_CYCLE;
				1411
				1412	/* dependency chain ends here, no cycles. */
				1413	if (odev->sync_conf.after == -1)
				1414	return NO_ERROR;
				1415
				1416	/* follow the dependency chain */
				1417	odev = minor_to_mdev(odev->sync_conf.after);
				1418	}
				1419	}
				1420
				1421	int drbd_alter_sa(struct drbd_conf *mdev, int na)
				1422	{
				1423	int changes;
				1424	int retcode;
				1425
				1426	write_lock_irq(&global_state_lock);
				1427	retcode = sync_after_error(mdev, na);
				1428	if (retcode == NO_ERROR) {
				1429	mdev->sync_conf.after = na;
				1430	do {
				1431	changes = _drbd_pause_after(mdev);
				1432	changes \|= _drbd_resume_next(mdev);
				1433	} while (changes);
				1434	}
				1435	write_unlock_irq(&global_state_lock);
				1436	return retcode;
				1437	}
				1438
Lars Ellenberg	9bd28d3	2010-11-05 09:55:18 +0100	[diff] [blame]	1439	void drbd_rs_controller_reset(struct drbd_conf *mdev)
				1440	{
				1441	atomic_set(&mdev->rs_sect_in, 0);
				1442	atomic_set(&mdev->rs_sect_ev, 0);
				1443	mdev->rs_in_flight = 0;
				1444	mdev->rs_planed = 0;
				1445	spin_lock(&mdev->peer_seq_lock);
				1446	fifo_set(&mdev->rs_plan_s, 0);
				1447	spin_unlock(&mdev->peer_seq_lock);
				1448	}
				1449
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1450	/**
				1451	* drbd_start_resync() - Start the resync process
				1452	* @mdev: DRBD device.
				1453	* @side: Either C_SYNC_SOURCE or C_SYNC_TARGET
				1454	*
				1455	* This function might bring you directly into one of the
				1456	* C_PAUSED_SYNC_* states.
				1457	*/
				1458	void drbd_start_resync(struct drbd_conf *mdev, enum drbd_conns side)
				1459	{
				1460	union drbd_state ns;
				1461	int r;
				1462
Philipp Reisner	c4752ef	2010-10-27 17:32:36 +0200	[diff] [blame]	1463	if (mdev->state.conn >= C_SYNC_SOURCE && mdev->state.conn < C_AHEAD) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1464	dev_err(DEV, "Resync already running!\n");
				1465	return;
				1466	}
				1467
Philipp Reisner	59817f4	2010-10-29 12:44:20 +0200	[diff] [blame]	1468	if (mdev->state.conn < C_AHEAD) {
				1469	/* In case a previous resync run was aborted by an IO error/detach on the peer. */
				1470	drbd_rs_cancel_all(mdev);
				1471	/* This should be done when we abort the resync. We definitely do not
				1472	want to have this for connections going back and forth between
				1473	Ahead/Behind and SyncSource/SyncTarget */
				1474	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1475
				1476	if (side == C_SYNC_TARGET) {
				1477	/* Since application IO was locked out during C_WF_BITMAP_T and
				1478	C_WF_SYNC_UUID we are still unmodified. Before going to C_SYNC_TARGET
				1479	we check that we might make the data inconsistent. */
				1480	r = drbd_khelper(mdev, "before-resync-target");
				1481	r = (r >> 8) & 0xff;
				1482	if (r > 0) {
				1483	dev_info(DEV, "before-resync-target handler returned %d, "
				1484	"dropping connection.\n", r);
				1485	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				1486	return;
				1487	}
Philipp Reisner	09b9e79	2010-12-03 16:04:24 +0100	[diff] [blame]	1488	} else /* C_SYNC_SOURCE */ {
				1489	r = drbd_khelper(mdev, "before-resync-source");
				1490	r = (r >> 8) & 0xff;
				1491	if (r > 0) {
				1492	if (r == 3) {
				1493	dev_info(DEV, "before-resync-source handler returned %d, "
				1494	"ignoring. Old userland tools?", r);
				1495	} else {
				1496	dev_info(DEV, "before-resync-source handler returned %d, "
				1497	"dropping connection.\n", r);
				1498	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				1499	return;
				1500	}
				1501	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1502	}
				1503
				1504	drbd_state_lock(mdev);
				1505
				1506	if (!get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1507	drbd_state_unlock(mdev);
				1508	return;
				1509	}
				1510
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1511	write_lock_irq(&global_state_lock);
				1512	ns = mdev->state;
				1513
				1514	ns.aftr_isp = !_drbd_may_sync_now(mdev);
				1515
				1516	ns.conn = side;
				1517
				1518	if (side == C_SYNC_TARGET)
				1519	ns.disk = D_INCONSISTENT;
				1520	else /* side == C_SYNC_SOURCE */
				1521	ns.pdsk = D_INCONSISTENT;
				1522
				1523	r = __drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
				1524	ns = mdev->state;
				1525
				1526	if (ns.conn < C_CONNECTED)
				1527	r = SS_UNKNOWN_ERROR;
				1528
				1529	if (r == SS_SUCCESS) {
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1530	unsigned long tw = drbd_bm_total_weight(mdev);
				1531	unsigned long now = jiffies;
				1532	int i;
				1533
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1534	mdev->rs_failed = 0;
				1535	mdev->rs_paused = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1536	mdev->rs_same_csum = 0;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	1537	mdev->rs_last_events = 0;
				1538	mdev->rs_last_sect_ev = 0;
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1539	mdev->rs_total = tw;
				1540	mdev->rs_start = now;
				1541	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
				1542	mdev->rs_mark_left[i] = tw;
				1543	mdev->rs_mark_time[i] = now;
				1544	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1545	_drbd_pause_after(mdev);
				1546	}
				1547	write_unlock_irq(&global_state_lock);
Lars Ellenberg	5a22db8	2010-12-17 21:14:23 +0100	[diff] [blame]	1548
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1549	if (r == SS_SUCCESS) {
				1550	dev_info(DEV, "Began resync as %s (will sync %lu KB [%lu bits set]).\n",
				1551	drbd_conn_str(ns.conn),
				1552	(unsigned long) mdev->rs_total << (BM_BLOCK_SHIFT-10),
				1553	(unsigned long) mdev->rs_total);
Lars Ellenberg	6c922ed	2011-01-12 11:51:13 +0100	[diff] [blame]	1554	if (side == C_SYNC_TARGET)
				1555	mdev->bm_resync_fo = 0;
				1556
				1557	/* Since protocol 96, we must serialize drbd_gen_and_send_sync_uuid
				1558	* with w_send_oos, or the sync target will get confused as to
				1559	* how much bits to resync. We cannot do that always, because for an
				1560	* empty resync and protocol < 95, we need to do it here, as we call
				1561	* drbd_resync_finished from here in that case.
				1562	* We drbd_gen_and_send_sync_uuid here for protocol < 96,
				1563	* and from after_state_ch otherwise. */
				1564	if (side == C_SYNC_SOURCE && mdev->agreed_pro_version < 96)
				1565	drbd_gen_and_send_sync_uuid(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1566
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	1567	if (mdev->agreed_pro_version < 95 && mdev->rs_total == 0) {
				1568	/* This still has a race (about when exactly the peers
				1569	* detect connection loss) that can lead to a full sync
				1570	* on next handshake. In 8.3.9 we fixed this with explicit
				1571	* resync-finished notifications, but the fix
				1572	* introduces a protocol change. Sleeping for some
				1573	* time longer than the ping interval + timeout on the
				1574	* SyncSource, to give the SyncTarget the chance to
				1575	* detect connection loss, then waiting for a ping
				1576	* response (implicit in drbd_resync_finished) reduces
				1577	* the race considerably, but does not solve it. */
				1578	if (side == C_SYNC_SOURCE)
				1579	schedule_timeout_interruptible(
				1580	mdev->net_conf->ping_int * HZ +
				1581	mdev->net_conf->ping_timeo*HZ/9);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1582	drbd_resync_finished(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1583	}
				1584
Lars Ellenberg	9bd28d3	2010-11-05 09:55:18 +0100	[diff] [blame]	1585	drbd_rs_controller_reset(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1586	/* ns.conn may already be != mdev->state.conn,
				1587	* we may have been paused in between, or become paused until
				1588	* the timer triggers.
				1589	* No matter, that is handled in resync_timer_fn() */
				1590	if (ns.conn == C_SYNC_TARGET)
				1591	mod_timer(&mdev->resync_timer, jiffies);
				1592
				1593	drbd_md_sync(mdev);
				1594	}
Lars Ellenberg	5a22db8	2010-12-17 21:14:23 +0100	[diff] [blame]	1595	put_ldev(mdev);
Philipp Reisner	d0c3f60	2010-03-02 15:06:45 +0100	[diff] [blame]	1596	drbd_state_unlock(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1597	}
				1598
				1599	int drbd_worker(struct drbd_thread *thi)
				1600	{
				1601	struct drbd_conf *mdev = thi->mdev;
				1602	struct drbd_work *w = NULL;
				1603	LIST_HEAD(work_list);
				1604	int intr = 0, i;
				1605
				1606	sprintf(current->comm, "drbd%d_worker", mdev_to_minor(mdev));
				1607
				1608	while (get_t_state(thi) == Running) {
				1609	drbd_thread_current_set_cpu(mdev);
				1610
				1611	if (down_trylock(&mdev->data.work.s)) {
				1612	mutex_lock(&mdev->data.mutex);
				1613	if (mdev->data.socket && !mdev->net_conf->no_cork)
				1614	drbd_tcp_uncork(mdev->data.socket);
				1615	mutex_unlock(&mdev->data.mutex);
				1616
				1617	intr = down_interruptible(&mdev->data.work.s);
				1618
				1619	mutex_lock(&mdev->data.mutex);
				1620	if (mdev->data.socket && !mdev->net_conf->no_cork)
				1621	drbd_tcp_cork(mdev->data.socket);
				1622	mutex_unlock(&mdev->data.mutex);
				1623	}
				1624
				1625	if (intr) {
				1626	D_ASSERT(intr == -EINTR);
				1627	flush_signals(current);
				1628	ERR_IF (get_t_state(thi) == Running)
				1629	continue;
				1630	break;
				1631	}
				1632
				1633	if (get_t_state(thi) != Running)
				1634	break;
				1635	/* With this break, we have done a down() but not consumed
				1636	the entry from the list. The cleanup code takes care of
				1637	this... */
				1638
				1639	w = NULL;
				1640	spin_lock_irq(&mdev->data.work.q_lock);
				1641	ERR_IF(list_empty(&mdev->data.work.q)) {
				1642	/* something terribly wrong in our logic.
				1643	* we were able to down() the semaphore,
				1644	* but the list is empty... doh.
				1645	*
				1646	* what is the best thing to do now?
				1647	* try again from scratch, restarting the receiver,
				1648	* asender, whatnot? could break even more ugly,
				1649	* e.g. when we are primary, but no good local data.
				1650	*
				1651	* I'll try to get away just starting over this loop.
				1652	*/
				1653	spin_unlock_irq(&mdev->data.work.q_lock);
				1654	continue;
				1655	}
				1656	w = list_entry(mdev->data.work.q.next, struct drbd_work, list);
				1657	list_del_init(&w->list);
				1658	spin_unlock_irq(&mdev->data.work.q_lock);
				1659
				1660	if (!w->cb(mdev, w, mdev->state.conn < C_CONNECTED)) {
				1661	/* dev_warn(DEV, "worker: a callback failed! \n"); */
				1662	if (mdev->state.conn >= C_CONNECTED)
				1663	drbd_force_state(mdev,
				1664	NS(conn, C_NETWORK_FAILURE));
				1665	}
				1666	}
				1667	D_ASSERT(test_bit(DEVICE_DYING, &mdev->flags));
				1668	D_ASSERT(test_bit(CONFIG_PENDING, &mdev->flags));
				1669
				1670	spin_lock_irq(&mdev->data.work.q_lock);
				1671	i = 0;
				1672	while (!list_empty(&mdev->data.work.q)) {
				1673	list_splice_init(&mdev->data.work.q, &work_list);
				1674	spin_unlock_irq(&mdev->data.work.q_lock);
				1675
				1676	while (!list_empty(&work_list)) {
				1677	w = list_entry(work_list.next, struct drbd_work, list);
				1678	list_del_init(&w->list);
				1679	w->cb(mdev, w, 1);
				1680	i++; /* dead debugging code */
				1681	}
				1682
				1683	spin_lock_irq(&mdev->data.work.q_lock);
				1684	}
				1685	sema_init(&mdev->data.work.s, 0);
				1686	/* DANGEROUS race: if someone did queue his work within the spinlock,
				1687	* but up() ed outside the spinlock, we could get an up() on the
				1688	* semaphore without corresponding list entry.
				1689	* So don't do that.
				1690	*/
				1691	spin_unlock_irq(&mdev->data.work.q_lock);
				1692
				1693	D_ASSERT(mdev->state.disk == D_DISKLESS && mdev->state.conn == C_STANDALONE);
				1694	/* _drbd_set_state only uses stop_nowait.
				1695	* wait here for the Exiting receiver. */
				1696	drbd_thread_stop(&mdev->receiver);
				1697	drbd_mdev_cleanup(mdev);
				1698
				1699	dev_info(DEV, "worker terminated\n");
				1700
				1701	clear_bit(DEVICE_DYING, &mdev->flags);
				1702	clear_bit(CONFIG_PENDING, &mdev->flags);
				1703	wake_up(&mdev->state_wait);
				1704
				1705	return 0;
				1706	}