Blame - drivers/block/drbd/drbd_worker.c - kernel/msm-4.9

blob: 147f76b2681022173f59419ba480963cdcfc1256 [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd_worker.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	drbd is free software; you can redistribute it and/or modify
				11	it under the terms of the GNU General Public License as published by
				12	the Free Software Foundation; either version 2, or (at your option)
				13	any later version.
				14
				15	drbd is distributed in the hope that it will be useful,
				16	but WITHOUT ANY WARRANTY; without even the implied warranty of
				17	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				18	GNU General Public License for more details.
				19
				20	You should have received a copy of the GNU General Public License
				21	along with drbd; see the file COPYING. If not, write to
				22	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				23
				24	*/
				25
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	26	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	27	#include <linux/drbd.h>
				28	#include <linux/sched.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/wait.h>
				30	#include <linux/mm.h>
				31	#include <linux/memcontrol.h>
				32	#include <linux/mm_inline.h>
				33	#include <linux/slab.h>
				34	#include <linux/random.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	35	#include <linux/string.h>
				36	#include <linux/scatterlist.h>
				37
				38	#include "drbd_int.h"
				39	#include "drbd_req.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	40
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	41	static int w_make_ov_request(struct drbd_conf mdev, struct drbd_work w, int cancel);
Philipp Reisner	9d77a5f	2010-11-07 18:02:56 +0100	[diff] [blame]	42	static int w_make_resync_request(struct drbd_conf *mdev,
				43	struct drbd_work *w, int cancel);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	44
				45
				46
				47	/* defined here:
				48	drbd_md_io_complete
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	49	drbd_endio_sec
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	50	drbd_endio_pri
				51
				52	* more endio handlers:
				53	atodb_endio in drbd_actlog.c
				54	drbd_bm_async_io_complete in drbd_bitmap.c
				55
				56	* For all these callbacks, note the following:
				57	* The callbacks will be called in irq context by the IDE drivers,
				58	* and in Softirqs/Tasklets/BH context by the SCSI drivers.
				59	* Try to get the locking right :)
				60	*
				61	*/
				62
				63
				64	/* About the global_state_lock
				65	Each state transition on an device holds a read lock. In case we have
				66	to evaluate the sync after dependencies, we grab a write lock, because
				67	we need stable states on all devices for that. */
				68	rwlock_t global_state_lock;
				69
				70	/* used for synchronous meta data and bitmap IO
				71	* submitted by drbd_md_sync_page_io()
				72	*/
				73	void drbd_md_io_complete(struct bio *bio, int error)
				74	{
				75	struct drbd_md_io *md_io;
				76
				77	md_io = (struct drbd_md_io *)bio->bi_private;
				78	md_io->error = error;
				79
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	80	complete(&md_io->event);
				81	}
				82
				83	/* reads on behalf of the partner,
				84	* "submitted" by the receiver
				85	*/
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	86	void drbd_endio_read_sec_final(struct drbd_epoch_entry *e) __releases(local)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	87	{
				88	unsigned long flags = 0;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	89	struct drbd_conf *mdev = e->mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	90
				91	D_ASSERT(e->block_id != ID_VACANT);
				92
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	93	spin_lock_irqsave(&mdev->req_lock, flags);
				94	mdev->read_cnt += e->size >> 9;
				95	list_del(&e->w.list);
				96	if (list_empty(&mdev->read_ee))
				97	wake_up(&mdev->ee_wait);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	98	if (test_bit(__EE_WAS_ERROR, &e->flags))
Andreas Gruenbacher	81e8465	2010-12-09 15:03:57 +0100	[diff] [blame]	99	__drbd_chk_io_error(mdev, false);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	100	spin_unlock_irqrestore(&mdev->req_lock, flags);
				101
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	102	drbd_queue_work(&mdev->data.work, &e->w);
				103	put_ldev(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	104	}
				105
				106	/* writes on behalf of the partner, or resync writes,
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	107	* "submitted" by the receiver, final stage. */
				108	static void drbd_endio_write_sec_final(struct drbd_epoch_entry *e) __releases(local)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	109	{
				110	unsigned long flags = 0;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	111	struct drbd_conf *mdev = e->mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	112	sector_t e_sector;
				113	int do_wake;
				114	int is_syncer_req;
				115	int do_al_complete_io;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	116
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	117	D_ASSERT(e->block_id != ID_VACANT);
				118
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	119	/* after we moved e to done_ee,
				120	* we may no longer access it,
				121	* it may be freed/reused already!
				122	* (as soon as we release the req_lock) */
				123	e_sector = e->sector;
				124	do_al_complete_io = e->flags & EE_CALL_AL_COMPLETE_IO;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	125	is_syncer_req = is_syncer_block_id(e->block_id);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	126
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	127	spin_lock_irqsave(&mdev->req_lock, flags);
				128	mdev->writ_cnt += e->size >> 9;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	129	list_del(&e->w.list); /* has been on active_ee or sync_ee */
				130	list_add_tail(&e->w.list, &mdev->done_ee);
				131
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	132	/* No hlist_del_init(&e->colision) here, we did not send the Ack yet,
				133	* neither did we wake possibly waiting conflicting requests.
				134	* done from "drbd_process_done_ee" within the appropriate w.cb
				135	* (e_end_block/e_end_resync_block) or from _drbd_clear_done_ee */
				136
				137	do_wake = is_syncer_req
				138	? list_empty(&mdev->sync_ee)
				139	: list_empty(&mdev->active_ee);
				140
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	141	if (test_bit(__EE_WAS_ERROR, &e->flags))
Andreas Gruenbacher	81e8465	2010-12-09 15:03:57 +0100	[diff] [blame]	142	__drbd_chk_io_error(mdev, false);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	143	spin_unlock_irqrestore(&mdev->req_lock, flags);
				144
				145	if (is_syncer_req)
				146	drbd_rs_complete_io(mdev, e_sector);
				147
				148	if (do_wake)
				149	wake_up(&mdev->ee_wait);
				150
				151	if (do_al_complete_io)
				152	drbd_al_complete_io(mdev, e_sector);
				153
				154	wake_asender(mdev);
				155	put_ldev(mdev);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	156	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	157
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	158	/* writes on behalf of the partner, or resync writes,
				159	* "submitted" by the receiver.
				160	*/
				161	void drbd_endio_sec(struct bio *bio, int error)
				162	{
				163	struct drbd_epoch_entry *e = bio->bi_private;
				164	struct drbd_conf *mdev = e->mdev;
				165	int uptodate = bio_flagged(bio, BIO_UPTODATE);
				166	int is_write = bio_data_dir(bio) == WRITE;
				167
Lars Ellenberg	0719427	2010-12-20 15:38:07 +0100	[diff] [blame]	168	if (error && __ratelimit(&drbd_ratelimit_state))
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	169	dev_warn(DEV, "%s: error=%d s=%llus\n",
				170	is_write ? "write" : "read", error,
				171	(unsigned long long)e->sector);
				172	if (!error && !uptodate) {
Lars Ellenberg	0719427	2010-12-20 15:38:07 +0100	[diff] [blame]	173	if (__ratelimit(&drbd_ratelimit_state))
				174	dev_warn(DEV, "%s: setting error to -EIO s=%llus\n",
				175	is_write ? "write" : "read",
				176	(unsigned long long)e->sector);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	177	/* strange behavior of some lower level drivers...
				178	* fail the request by clearing the uptodate flag,
				179	* but do not return any error?! */
				180	error = -EIO;
				181	}
				182
				183	if (error)
				184	set_bit(__EE_WAS_ERROR, &e->flags);
				185
				186	bio_put(bio); /* no need for the bio anymore */
				187	if (atomic_dec_and_test(&e->pending_bios)) {
				188	if (is_write)
				189	drbd_endio_write_sec_final(e);
				190	else
				191	drbd_endio_read_sec_final(e);
				192	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	193	}
				194
				195	/* read, readA or write requests on R_PRIMARY coming from drbd_make_request
				196	*/
				197	void drbd_endio_pri(struct bio *bio, int error)
				198	{
Lars Ellenberg	a115413	2010-11-13 20:42:29 +0100	[diff] [blame]	199	unsigned long flags;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	200	struct drbd_request *req = bio->bi_private;
				201	struct drbd_conf *mdev = req->mdev;
Lars Ellenberg	a115413	2010-11-13 20:42:29 +0100	[diff] [blame]	202	struct bio_and_error m;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	enum drbd_req_event what;
				204	int uptodate = bio_flagged(bio, BIO_UPTODATE);
				205
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	206	if (!error && !uptodate) {
				207	dev_warn(DEV, "p %s: setting error to -EIO\n",
				208	bio_data_dir(bio) == WRITE ? "write" : "read");
				209	/* strange behavior of some lower level drivers...
				210	* fail the request by clearing the uptodate flag,
				211	* but do not return any error?! */
				212	error = -EIO;
				213	}
				214
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	215	/* to avoid recursion in __req_mod */
				216	if (unlikely(error)) {
				217	what = (bio_data_dir(bio) == WRITE)
				218	? write_completed_with_error
Lars Ellenberg	5c3c7e6	2010-04-10 02:10:09 +0200	[diff] [blame]	219	: (bio_rw(bio) == READ)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	220	? read_completed_with_error
				221	: read_ahead_completed_with_error;
				222	} else
				223	what = completed_ok;
				224
				225	bio_put(req->private_bio);
				226	req->private_bio = ERR_PTR(error);
				227
Lars Ellenberg	a115413	2010-11-13 20:42:29 +0100	[diff] [blame]	228	/* not req_mod(), we need irqsave here! */
				229	spin_lock_irqsave(&mdev->req_lock, flags);
				230	__req_mod(req, what, &m);
				231	spin_unlock_irqrestore(&mdev->req_lock, flags);
				232
				233	if (m.bio)
				234	complete_master_bio(mdev, &m);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	235	}
				236
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	237	int w_read_retry_remote(struct drbd_conf mdev, struct drbd_work w, int cancel)
				238	{
				239	struct drbd_request *req = container_of(w, struct drbd_request, w);
				240
				241	/* We should not detach for read io-error,
				242	* but try to WRITE the P_DATA_REPLY to the failed location,
				243	* to give the disk the chance to relocate that block */
				244
				245	spin_lock_irq(&mdev->req_lock);
Lars Ellenberg	d255e5f	2010-05-27 09:45:45 +0200	[diff] [blame]	246	if (cancel \|\| mdev->state.pdsk != D_UP_TO_DATE) {
				247	_req_mod(req, read_retry_remote_canceled);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	248	spin_unlock_irq(&mdev->req_lock);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	249	return 1;
				250	}
				251	spin_unlock_irq(&mdev->req_lock);
				252
				253	return w_send_read_req(mdev, w, 0);
				254	}
				255
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	256	void drbd_csum_ee(struct drbd_conf mdev, struct crypto_hash tfm, struct drbd_epoch_entry e, void digest)
				257	{
				258	struct hash_desc desc;
				259	struct scatterlist sg;
				260	struct page *page = e->pages;
				261	struct page *tmp;
				262	unsigned len;
				263
				264	desc.tfm = tfm;
				265	desc.flags = 0;
				266
				267	sg_init_table(&sg, 1);
				268	crypto_hash_init(&desc);
				269
				270	while ((tmp = page_chain_next(page))) {
				271	/* all but the last page will be fully used */
				272	sg_set_page(&sg, page, PAGE_SIZE, 0);
				273	crypto_hash_update(&desc, &sg, sg.length);
				274	page = tmp;
				275	}
				276	/* and now the last, possibly only partially used page */
				277	len = e->size & (PAGE_SIZE - 1);
				278	sg_set_page(&sg, page, len ?: PAGE_SIZE, 0);
				279	crypto_hash_update(&desc, &sg, sg.length);
				280	crypto_hash_final(&desc, digest);
				281	}
				282
				283	void drbd_csum_bio(struct drbd_conf mdev, struct crypto_hash tfm, struct bio bio, void digest)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	284	{
				285	struct hash_desc desc;
				286	struct scatterlist sg;
				287	struct bio_vec *bvec;
				288	int i;
				289
				290	desc.tfm = tfm;
				291	desc.flags = 0;
				292
				293	sg_init_table(&sg, 1);
				294	crypto_hash_init(&desc);
				295
				296	__bio_for_each_segment(bvec, bio, i, 0) {
				297	sg_set_page(&sg, bvec->bv_page, bvec->bv_len, bvec->bv_offset);
				298	crypto_hash_update(&desc, &sg, sg.length);
				299	}
				300	crypto_hash_final(&desc, digest);
				301	}
				302
				303	static int w_e_send_csum(struct drbd_conf mdev, struct drbd_work w, int cancel)
				304	{
				305	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				306	int digest_size;
				307	void *digest;
				308	int ok;
				309
				310	D_ASSERT(e->block_id == DRBD_MAGIC + 0xbeef);
				311
				312	if (unlikely(cancel)) {
				313	drbd_free_ee(mdev, e);
				314	return 1;
				315	}
				316
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	317	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	318	digest_size = crypto_hash_digestsize(mdev->csums_tfm);
				319	digest = kmalloc(digest_size, GFP_NOIO);
				320	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	321	drbd_csum_ee(mdev, mdev->csums_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	322
				323	inc_rs_pending(mdev);
				324	ok = drbd_send_drequest_csum(mdev,
				325	e->sector,
				326	e->size,
				327	digest,
				328	digest_size,
				329	P_CSUM_RS_REQUEST);
				330	kfree(digest);
				331	} else {
				332	dev_err(DEV, "kmalloc() of digest failed.\n");
				333	ok = 0;
				334	}
				335	} else
				336	ok = 1;
				337
				338	drbd_free_ee(mdev, e);
				339
				340	if (unlikely(!ok))
				341	dev_err(DEV, "drbd_send_drequest(..., csum) failed\n");
				342	return ok;
				343	}
				344
				345	#define GFP_TRY (__GFP_HIGHMEM \| __GFP_NOWARN)
				346
				347	static int read_for_csum(struct drbd_conf *mdev, sector_t sector, int size)
				348	{
				349	struct drbd_epoch_entry *e;
				350
				351	if (!get_ldev(mdev))
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	352	return -EIO;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	353
Philipp Reisner	e3555d8	2010-11-07 15:56:29 +0100	[diff] [blame]	354	if (drbd_rs_should_slow_down(mdev, sector))
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	355	goto defer;
				356
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	357	/* GFP_TRY, because if there is no memory available right now, this may
				358	* be rescheduled for later. It is "only" background resync, after all. */
				359	e = drbd_alloc_ee(mdev, DRBD_MAGIC+0xbeef, sector, size, GFP_TRY);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	360	if (!e)
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	361	goto defer;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	362
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	363	e->w.cb = w_e_send_csum;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	364	spin_lock_irq(&mdev->req_lock);
				365	list_add(&e->w.list, &mdev->read_ee);
				366	spin_unlock_irq(&mdev->req_lock);
				367
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	368	atomic_add(size >> 9, &mdev->rs_sect_ev);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	369	if (drbd_submit_ee(mdev, e, READ, DRBD_FAULT_RS_RD) == 0)
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	370	return 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	371
Lars Ellenberg	22cc37a	2010-09-14 20:40:41 +0200	[diff] [blame]	372	/* drbd_submit_ee currently fails for one reason only:
				373	* not being able to allocate enough bios.
				374	* Is dropping the connection going to help? */
				375	spin_lock_irq(&mdev->req_lock);
				376	list_del(&e->w.list);
				377	spin_unlock_irq(&mdev->req_lock);
				378
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	379	drbd_free_ee(mdev, e);
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	380	defer:
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	381	put_ldev(mdev);
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	382	return -EAGAIN;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	383	}
				384
Philipp Reisner	794abb7	2010-12-27 11:51:23 +0100	[diff] [blame^]	385	int w_resync_timer(struct drbd_conf mdev, struct drbd_work w, int cancel)
				386	{
				387	switch (mdev->state.conn) {
				388	case C_VERIFY_S:
				389	w_make_ov_request(mdev, w, cancel);
				390	break;
				391	case C_SYNC_TARGET:
				392	w_make_resync_request(mdev, w, cancel);
				393	break;
				394	}
				395
				396	return 1;
				397	}
				398
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	399	void resync_timer_fn(unsigned long data)
				400	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	401	struct drbd_conf mdev = (struct drbd_conf ) data;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	402
Philipp Reisner	794abb7	2010-12-27 11:51:23 +0100	[diff] [blame^]	403	if (list_empty(&mdev->resync_work.list))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	404	drbd_queue_work(&mdev->data.work, &mdev->resync_work);
				405	}
				406
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	407	static void fifo_set(struct fifo_buffer *fb, int value)
				408	{
				409	int i;
				410
				411	for (i = 0; i < fb->size; i++)
Philipp Reisner	f10f262	2010-10-05 16:50:17 +0200	[diff] [blame]	412	fb->values[i] = value;
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	413	}
				414
				415	static int fifo_push(struct fifo_buffer *fb, int value)
				416	{
				417	int ov;
				418
				419	ov = fb->values[fb->head_index];
				420	fb->values[fb->head_index++] = value;
				421
				422	if (fb->head_index >= fb->size)
				423	fb->head_index = 0;
				424
				425	return ov;
				426	}
				427
				428	static void fifo_add_val(struct fifo_buffer *fb, int value)
				429	{
				430	int i;
				431
				432	for (i = 0; i < fb->size; i++)
				433	fb->values[i] += value;
				434	}
				435
Philipp Reisner	9d77a5f	2010-11-07 18:02:56 +0100	[diff] [blame]	436	static int drbd_rs_controller(struct drbd_conf *mdev)
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	437	{
				438	unsigned int sect_in; /* Number of sectors that came in since the last turn */
				439	unsigned int want; /* The number of sectors we want in the proxy */
				440	int req_sect; /* Number of sectors to request in this turn */
				441	int correction; /* Number of sectors more we need in the proxy*/
				442	int cps; /* correction per invocation of drbd_rs_controller() */
				443	int steps; /* Number of time steps to plan ahead */
				444	int curr_corr;
				445	int max_sect;
				446
				447	sect_in = atomic_xchg(&mdev->rs_sect_in, 0); /* Number of sectors that came in */
				448	mdev->rs_in_flight -= sect_in;
				449
				450	spin_lock(&mdev->peer_seq_lock); /* get an atomic view on mdev->rs_plan_s */
				451
				452	steps = mdev->rs_plan_s.size; /* (mdev->sync_conf.c_plan_ahead * 10 * SLEEP_TIME) / HZ; */
				453
				454	if (mdev->rs_in_flight + sect_in == 0) { /* At start of resync */
				455	want = ((mdev->sync_conf.rate * 2 * SLEEP_TIME) / HZ) * steps;
				456	} else { /* normal path */
				457	want = mdev->sync_conf.c_fill_target ? mdev->sync_conf.c_fill_target :
				458	sect_in * mdev->sync_conf.c_delay_target * HZ / (SLEEP_TIME * 10);
				459	}
				460
				461	correction = want - mdev->rs_in_flight - mdev->rs_planed;
				462
				463	/* Plan ahead */
				464	cps = correction / steps;
				465	fifo_add_val(&mdev->rs_plan_s, cps);
				466	mdev->rs_planed += cps * steps;
				467
				468	/* What we do in this step */
				469	curr_corr = fifo_push(&mdev->rs_plan_s, 0);
				470	spin_unlock(&mdev->peer_seq_lock);
				471	mdev->rs_planed -= curr_corr;
				472
				473	req_sect = sect_in + curr_corr;
				474	if (req_sect < 0)
				475	req_sect = 0;
				476
				477	max_sect = (mdev->sync_conf.c_max_rate * 2 * SLEEP_TIME) / HZ;
				478	if (req_sect > max_sect)
				479	req_sect = max_sect;
				480
				481	/*
				482	dev_warn(DEV, "si=%u if=%d wa=%u co=%d st=%d cps=%d pl=%d cc=%d rs=%d\n",
				483	sect_in, mdev->rs_in_flight, want, correction,
				484	steps, cps, mdev->rs_planed, curr_corr, req_sect);
				485	*/
				486
				487	return req_sect;
				488	}
				489
Philipp Reisner	9d77a5f	2010-11-07 18:02:56 +0100	[diff] [blame]	490	static int drbd_rs_number_requests(struct drbd_conf *mdev)
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	491	{
				492	int number;
				493	if (mdev->rs_plan_s.size) { /* mdev->sync_conf.c_plan_ahead */
				494	number = drbd_rs_controller(mdev) >> (BM_BLOCK_SHIFT - 9);
				495	mdev->c_sync_rate = number * HZ * (BM_BLOCK_SIZE / 1024) / SLEEP_TIME;
				496	} else {
				497	mdev->c_sync_rate = mdev->sync_conf.rate;
				498	number = SLEEP_TIME * mdev->c_sync_rate / ((BM_BLOCK_SIZE / 1024) * HZ);
				499	}
				500
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	501	/* ignore the amount of pending requests, the resync controller should
				502	* throttle down to incoming reply rate soon enough anyways. */
				503	return number;
				504	}
				505
Philipp Reisner	9d77a5f	2010-11-07 18:02:56 +0100	[diff] [blame]	506	static int w_make_resync_request(struct drbd_conf *mdev,
				507	struct drbd_work *w, int cancel)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	508	{
				509	unsigned long bit;
				510	sector_t sector;
				511	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	512	int max_bio_size;
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	513	int number, rollback_i, size;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	514	int align, queued, sndbuf;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	515	int i = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	516
				517	if (unlikely(cancel))
				518	return 1;
				519
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	520	if (mdev->rs_total == 0) {
				521	/* empty resync? */
				522	drbd_resync_finished(mdev);
				523	return 1;
				524	}
				525
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	526	if (!get_ldev(mdev)) {
				527	/* Since we only need to access mdev->rsync a
				528	get_ldev_if_state(mdev,D_FAILED) would be sufficient, but
				529	to continue resync with a broken disk makes no sense at
				530	all */
				531	dev_err(DEV, "Disk broke down during resync!\n");
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	532	return 1;
				533	}
				534
Lars Ellenberg	bb3d000	2010-05-14 19:08:55 +0200	[diff] [blame]	535	/* starting with drbd 8.3.8, we can handle multi-bio EEs,
				536	* if it should be necessary */
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	537	max_bio_size =
				538	mdev->agreed_pro_version < 94 ? queue_max_hw_sectors(mdev->rq_queue) << 9 :
				539	mdev->agreed_pro_version < 95 ? DRBD_MAX_SIZE_H80_PACKET : DRBD_MAX_BIO_SIZE;
Lars Ellenberg	bb3d000	2010-05-14 19:08:55 +0200	[diff] [blame]	540
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	541	number = drbd_rs_number_requests(mdev);
				542	if (number == 0)
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	543	goto requeue;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	544
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	545	for (i = 0; i < number; i++) {
				546	/* Stop generating RS requests, when half of the send buffer is filled */
				547	mutex_lock(&mdev->data.mutex);
				548	if (mdev->data.socket) {
				549	queued = mdev->data.socket->sk->sk_wmem_queued;
				550	sndbuf = mdev->data.socket->sk->sk_sndbuf;
				551	} else {
				552	queued = 1;
				553	sndbuf = 0;
				554	}
				555	mutex_unlock(&mdev->data.mutex);
				556	if (queued > sndbuf / 2)
				557	goto requeue;
				558
				559	next_sector:
				560	size = BM_BLOCK_SIZE;
				561	bit = drbd_bm_find_next(mdev, mdev->bm_resync_fo);
				562
Lars Ellenberg	4b0715f	2010-12-14 15:13:04 +0100	[diff] [blame]	563	if (bit == DRBD_END_OF_BITMAP) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	564	mdev->bm_resync_fo = drbd_bm_bits(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	565	put_ldev(mdev);
				566	return 1;
				567	}
				568
				569	sector = BM_BIT_TO_SECT(bit);
				570
Philipp Reisner	e3555d8	2010-11-07 15:56:29 +0100	[diff] [blame]	571	if (drbd_rs_should_slow_down(mdev, sector) \|\|
				572	drbd_try_rs_begin_io(mdev, sector)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	573	mdev->bm_resync_fo = bit;
				574	goto requeue;
				575	}
				576	mdev->bm_resync_fo = bit + 1;
				577
				578	if (unlikely(drbd_bm_test_bit(mdev, bit) == 0)) {
				579	drbd_rs_complete_io(mdev, sector);
				580	goto next_sector;
				581	}
				582
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	583	#if DRBD_MAX_BIO_SIZE > BM_BLOCK_SIZE
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	584	/* try to find some adjacent bits.
				585	* we stop if we have already the maximum req size.
				586	*
				587	* Additionally always align bigger requests, in order to
				588	* be prepared for all stripe sizes of software RAIDs.
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	589	*/
				590	align = 1;
Philipp Reisner	d207450	2010-07-22 15:27:27 +0200	[diff] [blame]	591	rollback_i = i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	592	for (;;) {
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	593	if (size + BM_BLOCK_SIZE > max_bio_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	594	break;
				595
				596	/* Be always aligned */
				597	if (sector & ((1<<(align+3))-1))
				598	break;
				599
				600	/* do not cross extent boundaries */
				601	if (((bit+1) & BM_BLOCKS_PER_BM_EXT_MASK) == 0)
				602	break;
				603	/* now, is it actually dirty, after all?
				604	* caution, drbd_bm_test_bit is tri-state for some
				605	* obscure reason; ( b == 0 ) would get the out-of-band
				606	* only accidentally right because of the "oddly sized"
				607	* adjustment below */
				608	if (drbd_bm_test_bit(mdev, bit+1) != 1)
				609	break;
				610	bit++;
				611	size += BM_BLOCK_SIZE;
				612	if ((BM_BLOCK_SIZE << align) <= size)
				613	align++;
				614	i++;
				615	}
				616	/* if we merged some,
				617	* reset the offset to start the next drbd_bm_find_next from */
				618	if (size > BM_BLOCK_SIZE)
				619	mdev->bm_resync_fo = bit + 1;
				620	#endif
				621
				622	/* adjust very last sectors, in case we are oddly sized */
				623	if (sector + (size>>9) > capacity)
				624	size = (capacity-sector)<<9;
				625	if (mdev->agreed_pro_version >= 89 && mdev->csums_tfm) {
				626	switch (read_for_csum(mdev, sector, size)) {
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	627	case -EIO: /* Disk failure */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	628	put_ldev(mdev);
				629	return 0;
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	630	case -EAGAIN: /* allocation failed, or ldev busy */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	631	drbd_rs_complete_io(mdev, sector);
				632	mdev->bm_resync_fo = BM_SECT_TO_BIT(sector);
Philipp Reisner	d207450	2010-07-22 15:27:27 +0200	[diff] [blame]	633	i = rollback_i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	634	goto requeue;
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	635	case 0:
				636	/* everything ok */
				637	break;
				638	default:
				639	BUG();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	640	}
				641	} else {
				642	inc_rs_pending(mdev);
				643	if (!drbd_send_drequest(mdev, P_RS_DATA_REQUEST,
				644	sector, size, ID_SYNCER)) {
				645	dev_err(DEV, "drbd_send_drequest() failed, aborting...\n");
				646	dec_rs_pending(mdev);
				647	put_ldev(mdev);
				648	return 0;
				649	}
				650	}
				651	}
				652
				653	if (mdev->bm_resync_fo >= drbd_bm_bits(mdev)) {
				654	/* last syncer _request_ was sent,
				655	* but the P_RS_DATA_REPLY not yet received. sync will end (and
				656	* next sync group will resume), as soon as we receive the last
				657	* resync data block, and the last bit is cleared.
				658	* until then resync "work" is "inactive" ...
				659	*/
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	660	put_ldev(mdev);
				661	return 1;
				662	}
				663
				664	requeue:
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	665	mdev->rs_in_flight += (i << (BM_BLOCK_SHIFT - 9));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	666	mod_timer(&mdev->resync_timer, jiffies + SLEEP_TIME);
				667	put_ldev(mdev);
				668	return 1;
				669	}
				670
				671	static int w_make_ov_request(struct drbd_conf mdev, struct drbd_work w, int cancel)
				672	{
				673	int number, i, size;
				674	sector_t sector;
				675	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
				676
				677	if (unlikely(cancel))
				678	return 1;
				679
Lars Ellenberg	2649f08	2010-11-05 10:05:47 +0100	[diff] [blame]	680	number = drbd_rs_number_requests(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	681
				682	sector = mdev->ov_position;
				683	for (i = 0; i < number; i++) {
				684	if (sector >= capacity) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	685	return 1;
				686	}
				687
				688	size = BM_BLOCK_SIZE;
				689
Philipp Reisner	e3555d8	2010-11-07 15:56:29 +0100	[diff] [blame]	690	if (drbd_rs_should_slow_down(mdev, sector) \|\|
				691	drbd_try_rs_begin_io(mdev, sector)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	692	mdev->ov_position = sector;
				693	goto requeue;
				694	}
				695
				696	if (sector + (size>>9) > capacity)
				697	size = (capacity-sector)<<9;
				698
				699	inc_rs_pending(mdev);
				700	if (!drbd_send_ov_request(mdev, sector, size)) {
				701	dec_rs_pending(mdev);
				702	return 0;
				703	}
				704	sector += BM_SECT_PER_BIT;
				705	}
				706	mdev->ov_position = sector;
				707
				708	requeue:
Lars Ellenberg	2649f08	2010-11-05 10:05:47 +0100	[diff] [blame]	709	mdev->rs_in_flight += (i << (BM_BLOCK_SHIFT - 9));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	710	mod_timer(&mdev->resync_timer, jiffies + SLEEP_TIME);
				711	return 1;
				712	}
				713
Philipp Reisner	c4752ef	2010-10-27 17:32:36 +0200	[diff] [blame]	714
				715	int w_start_resync(struct drbd_conf mdev, struct drbd_work w, int cancel)
				716	{
				717	drbd_start_resync(mdev, C_SYNC_SOURCE);
				718
				719	return 1;
				720	}
				721
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	722	int w_ov_finished(struct drbd_conf mdev, struct drbd_work w, int cancel)
				723	{
				724	kfree(w);
				725	ov_oos_print(mdev);
				726	drbd_resync_finished(mdev);
				727
				728	return 1;
				729	}
				730
				731	static int w_resync_finished(struct drbd_conf mdev, struct drbd_work w, int cancel)
				732	{
				733	kfree(w);
				734
				735	drbd_resync_finished(mdev);
				736
				737	return 1;
				738	}
				739
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	740	static void ping_peer(struct drbd_conf *mdev)
				741	{
				742	clear_bit(GOT_PING_ACK, &mdev->flags);
				743	request_ping(mdev);
				744	wait_event(mdev->misc_wait,
				745	test_bit(GOT_PING_ACK, &mdev->flags) \|\| mdev->state.conn < C_CONNECTED);
				746	}
				747
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	748	int drbd_resync_finished(struct drbd_conf *mdev)
				749	{
				750	unsigned long db, dt, dbdt;
				751	unsigned long n_oos;
				752	union drbd_state os, ns;
				753	struct drbd_work *w;
				754	char *khelper_cmd = NULL;
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	755	int verify_done = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	756
				757	/* Remove all elements from the resync LRU. Since future actions
				758	* might set bits in the (main) bitmap, then the entries in the
				759	* resync LRU would be wrong. */
				760	if (drbd_rs_del_all(mdev)) {
				761	/* In case this is not possible now, most probably because
				762	* there are P_RS_DATA_REPLY Packets lingering on the worker's
				763	* queue (or even the read operations for those packets
				764	* is not finished by now). Retry in 100ms. */
				765
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	766	__set_current_state(TASK_INTERRUPTIBLE);
				767	schedule_timeout(HZ / 10);
				768	w = kmalloc(sizeof(struct drbd_work), GFP_ATOMIC);
				769	if (w) {
				770	w->cb = w_resync_finished;
				771	drbd_queue_work(&mdev->data.work, w);
				772	return 1;
				773	}
				774	dev_err(DEV, "Warn failed to drbd_rs_del_all() and to kmalloc(w).\n");
				775	}
				776
				777	dt = (jiffies - mdev->rs_start - mdev->rs_paused) / HZ;
				778	if (dt <= 0)
				779	dt = 1;
				780	db = mdev->rs_total;
				781	dbdt = Bit2KB(db/dt);
				782	mdev->rs_paused /= HZ;
				783
				784	if (!get_ldev(mdev))
				785	goto out;
				786
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	787	ping_peer(mdev);
				788
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	789	spin_lock_irq(&mdev->req_lock);
				790	os = mdev->state;
				791
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	792	verify_done = (os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T);
				793
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	794	/* This protects us against multiple calls (that can happen in the presence
				795	of application IO), and against connectivity loss just before we arrive here. */
				796	if (os.conn <= C_CONNECTED)
				797	goto out_unlock;
				798
				799	ns = os;
				800	ns.conn = C_CONNECTED;
				801
				802	dev_info(DEV, "%s done (total %lu sec; paused %lu sec; %lu K/sec)\n",
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	803	verify_done ? "Online verify " : "Resync",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	804	dt + mdev->rs_paused, mdev->rs_paused, dbdt);
				805
				806	n_oos = drbd_bm_total_weight(mdev);
				807
				808	if (os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) {
				809	if (n_oos) {
				810	dev_alert(DEV, "Online verify found %lu %dk block out of sync!\n",
				811	n_oos, Bit2KB(1));
				812	khelper_cmd = "out-of-sync";
				813	}
				814	} else {
				815	D_ASSERT((n_oos - mdev->rs_failed) == 0);
				816
				817	if (os.conn == C_SYNC_TARGET \|\| os.conn == C_PAUSED_SYNC_T)
				818	khelper_cmd = "after-resync-target";
				819
				820	if (mdev->csums_tfm && mdev->rs_total) {
				821	const unsigned long s = mdev->rs_same_csum;
				822	const unsigned long t = mdev->rs_total;
				823	const int ratio =
				824	(t == 0) ? 0 :
				825	(t < 100000) ? ((s*100)/t) : (s/(t/100));
				826	dev_info(DEV, "%u %% had equal check sums, eliminated: %luK; "
				827	"transferred %luK total %luK\n",
				828	ratio,
				829	Bit2KB(mdev->rs_same_csum),
				830	Bit2KB(mdev->rs_total - mdev->rs_same_csum),
				831	Bit2KB(mdev->rs_total));
				832	}
				833	}
				834
				835	if (mdev->rs_failed) {
				836	dev_info(DEV, " %lu failed blocks\n", mdev->rs_failed);
				837
				838	if (os.conn == C_SYNC_TARGET \|\| os.conn == C_PAUSED_SYNC_T) {
				839	ns.disk = D_INCONSISTENT;
				840	ns.pdsk = D_UP_TO_DATE;
				841	} else {
				842	ns.disk = D_UP_TO_DATE;
				843	ns.pdsk = D_INCONSISTENT;
				844	}
				845	} else {
				846	ns.disk = D_UP_TO_DATE;
				847	ns.pdsk = D_UP_TO_DATE;
				848
				849	if (os.conn == C_SYNC_TARGET \|\| os.conn == C_PAUSED_SYNC_T) {
				850	if (mdev->p_uuid) {
				851	int i;
				852	for (i = UI_BITMAP ; i <= UI_HISTORY_END ; i++)
				853	_drbd_uuid_set(mdev, i, mdev->p_uuid[i]);
				854	drbd_uuid_set(mdev, UI_BITMAP, mdev->ldev->md.uuid[UI_CURRENT]);
				855	_drbd_uuid_set(mdev, UI_CURRENT, mdev->p_uuid[UI_CURRENT]);
				856	} else {
				857	dev_err(DEV, "mdev->p_uuid is NULL! BUG\n");
				858	}
				859	}
				860
				861	drbd_uuid_set_bm(mdev, 0UL);
				862
				863	if (mdev->p_uuid) {
				864	/* Now the two UUID sets are equal, update what we
				865	* know of the peer. */
				866	int i;
				867	for (i = UI_CURRENT ; i <= UI_HISTORY_END ; i++)
				868	mdev->p_uuid[i] = mdev->ldev->md.uuid[i];
				869	}
				870	}
				871
				872	_drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
				873	out_unlock:
				874	spin_unlock_irq(&mdev->req_lock);
				875	put_ldev(mdev);
				876	out:
				877	mdev->rs_total = 0;
				878	mdev->rs_failed = 0;
				879	mdev->rs_paused = 0;
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	880	if (verify_done)
				881	mdev->ov_start_sector = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	882
Lars Ellenberg	13d4268	2010-10-13 17:37:54 +0200	[diff] [blame]	883	drbd_md_sync(mdev);
				884
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	885	if (khelper_cmd)
				886	drbd_khelper(mdev, khelper_cmd);
				887
				888	return 1;
				889	}
				890
				891	/* helper */
				892	static void move_to_net_ee_or_free(struct drbd_conf mdev, struct drbd_epoch_entry e)
				893	{
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	894	if (drbd_ee_has_active_page(e)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	895	/* This might happen if sendpage() has not finished */
Lars Ellenberg	78db892	2010-09-13 13:27:10 +0200	[diff] [blame]	896	int i = (e->size + PAGE_SIZE -1) >> PAGE_SHIFT;
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	897	atomic_add(i, &mdev->pp_in_use_by_net);
				898	atomic_sub(i, &mdev->pp_in_use);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	899	spin_lock_irq(&mdev->req_lock);
				900	list_add_tail(&e->w.list, &mdev->net_ee);
				901	spin_unlock_irq(&mdev->req_lock);
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	902	wake_up(&drbd_pp_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	903	} else
				904	drbd_free_ee(mdev, e);
				905	}
				906
				907	/**
				908	* w_e_end_data_req() - Worker callback, to send a P_DATA_REPLY packet in response to a P_DATA_REQUEST
				909	* @mdev: DRBD device.
				910	* @w: work object.
				911	* @cancel: The connection will be closed anyways
				912	*/
				913	int w_e_end_data_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				914	{
				915	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				916	int ok;
				917
				918	if (unlikely(cancel)) {
				919	drbd_free_ee(mdev, e);
				920	dec_unacked(mdev);
				921	return 1;
				922	}
				923
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	924	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	925	ok = drbd_send_block(mdev, P_DATA_REPLY, e);
				926	} else {
				927	if (__ratelimit(&drbd_ratelimit_state))
				928	dev_err(DEV, "Sending NegDReply. sector=%llus.\n",
				929	(unsigned long long)e->sector);
				930
				931	ok = drbd_send_ack(mdev, P_NEG_DREPLY, e);
				932	}
				933
				934	dec_unacked(mdev);
				935
				936	move_to_net_ee_or_free(mdev, e);
				937
				938	if (unlikely(!ok))
				939	dev_err(DEV, "drbd_send_block() failed\n");
				940	return ok;
				941	}
				942
				943	/**
				944	* w_e_end_rsdata_req() - Worker callback to send a P_RS_DATA_REPLY packet in response to a P_RS_DATA_REQUESTRS
				945	* @mdev: DRBD device.
				946	* @w: work object.
				947	* @cancel: The connection will be closed anyways
				948	*/
				949	int w_e_end_rsdata_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				950	{
				951	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				952	int ok;
				953
				954	if (unlikely(cancel)) {
				955	drbd_free_ee(mdev, e);
				956	dec_unacked(mdev);
				957	return 1;
				958	}
				959
				960	if (get_ldev_if_state(mdev, D_FAILED)) {
				961	drbd_rs_complete_io(mdev, e->sector);
				962	put_ldev(mdev);
				963	}
				964
Philipp Reisner	d612d30	2010-12-27 10:53:28 +0100	[diff] [blame]	965	if (mdev->state.conn == C_AHEAD) {
				966	ok = drbd_send_ack(mdev, P_RS_CANCEL, e);
				967	} else if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	968	if (likely(mdev->state.pdsk >= D_INCONSISTENT)) {
				969	inc_rs_pending(mdev);
				970	ok = drbd_send_block(mdev, P_RS_DATA_REPLY, e);
				971	} else {
				972	if (__ratelimit(&drbd_ratelimit_state))
				973	dev_err(DEV, "Not sending RSDataReply, "
				974	"partner DISKLESS!\n");
				975	ok = 1;
				976	}
				977	} else {
				978	if (__ratelimit(&drbd_ratelimit_state))
				979	dev_err(DEV, "Sending NegRSDReply. sector %llus.\n",
				980	(unsigned long long)e->sector);
				981
				982	ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
				983
				984	/* update resync data with failure */
				985	drbd_rs_failed_io(mdev, e->sector, e->size);
				986	}
				987
				988	dec_unacked(mdev);
				989
				990	move_to_net_ee_or_free(mdev, e);
				991
				992	if (unlikely(!ok))
				993	dev_err(DEV, "drbd_send_block() failed\n");
				994	return ok;
				995	}
				996
				997	int w_e_end_csum_rs_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				998	{
				999	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				1000	struct digest_info *di;
				1001	int digest_size;
				1002	void *digest = NULL;
				1003	int ok, eq = 0;
				1004
				1005	if (unlikely(cancel)) {
				1006	drbd_free_ee(mdev, e);
				1007	dec_unacked(mdev);
				1008	return 1;
				1009	}
				1010
Lars Ellenberg	1d53f09	2010-09-05 01:13:24 +0200	[diff] [blame]	1011	if (get_ldev(mdev)) {
				1012	drbd_rs_complete_io(mdev, e->sector);
				1013	put_ldev(mdev);
				1014	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1015
Philipp Reisner	8571957	2010-07-21 10:20:17 +0200	[diff] [blame]	1016	di = e->digest;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1017
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1018	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1019	/* quick hack to try to avoid a race against reconfiguration.
				1020	* a real fix would be much more involved,
				1021	* introducing more locking mechanisms */
				1022	if (mdev->csums_tfm) {
				1023	digest_size = crypto_hash_digestsize(mdev->csums_tfm);
				1024	D_ASSERT(digest_size == di->digest_size);
				1025	digest = kmalloc(digest_size, GFP_NOIO);
				1026	}
				1027	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1028	drbd_csum_ee(mdev, mdev->csums_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1029	eq = !memcmp(digest, di->digest, digest_size);
				1030	kfree(digest);
				1031	}
				1032
				1033	if (eq) {
				1034	drbd_set_in_sync(mdev, e->sector, e->size);
Lars Ellenberg	676396d	2010-03-03 02:08:22 +0100	[diff] [blame]	1035	/* rs_same_csums unit is BM_BLOCK_SIZE */
				1036	mdev->rs_same_csum += e->size >> BM_BLOCK_SHIFT;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1037	ok = drbd_send_ack(mdev, P_RS_IS_IN_SYNC, e);
				1038	} else {
				1039	inc_rs_pending(mdev);
Philipp Reisner	204bba9	2010-08-23 16:17:13 +0200	[diff] [blame]	1040	e->block_id = ID_SYNCER; /* By setting block_id, digest pointer becomes invalid! */
				1041	e->flags &= ~EE_HAS_DIGEST; /* This e no longer has a digest pointer */
				1042	kfree(di);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1043	ok = drbd_send_block(mdev, P_RS_DATA_REPLY, e);
				1044	}
				1045	} else {
				1046	ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
				1047	if (__ratelimit(&drbd_ratelimit_state))
				1048	dev_err(DEV, "Sending NegDReply. I guess it gets messy.\n");
				1049	}
				1050
				1051	dec_unacked(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1052	move_to_net_ee_or_free(mdev, e);
				1053
				1054	if (unlikely(!ok))
				1055	dev_err(DEV, "drbd_send_block/ack() failed\n");
				1056	return ok;
				1057	}
				1058
				1059	int w_e_end_ov_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1060	{
				1061	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				1062	int digest_size;
				1063	void *digest;
				1064	int ok = 1;
				1065
				1066	if (unlikely(cancel))
				1067	goto out;
				1068
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1069	if (unlikely((e->flags & EE_WAS_ERROR) != 0))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1070	goto out;
				1071
				1072	digest_size = crypto_hash_digestsize(mdev->verify_tfm);
				1073	/* FIXME if this allocation fails, online verify will not terminate! */
				1074	digest = kmalloc(digest_size, GFP_NOIO);
				1075	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1076	drbd_csum_ee(mdev, mdev->verify_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1077	inc_rs_pending(mdev);
				1078	ok = drbd_send_drequest_csum(mdev, e->sector, e->size,
				1079	digest, digest_size, P_OV_REPLY);
				1080	if (!ok)
				1081	dec_rs_pending(mdev);
				1082	kfree(digest);
				1083	}
				1084
				1085	out:
				1086	drbd_free_ee(mdev, e);
				1087
				1088	dec_unacked(mdev);
				1089
				1090	return ok;
				1091	}
				1092
				1093	void drbd_ov_oos_found(struct drbd_conf *mdev, sector_t sector, int size)
				1094	{
				1095	if (mdev->ov_last_oos_start + mdev->ov_last_oos_size == sector) {
				1096	mdev->ov_last_oos_size += size>>9;
				1097	} else {
				1098	mdev->ov_last_oos_start = sector;
				1099	mdev->ov_last_oos_size = size>>9;
				1100	}
				1101	drbd_set_out_of_sync(mdev, sector, size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1102	}
				1103
				1104	int w_e_end_ov_reply(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1105	{
				1106	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				1107	struct digest_info *di;
				1108	int digest_size;
				1109	void *digest;
				1110	int ok, eq = 0;
				1111
				1112	if (unlikely(cancel)) {
				1113	drbd_free_ee(mdev, e);
				1114	dec_unacked(mdev);
				1115	return 1;
				1116	}
				1117
				1118	/* after "cancel", because after drbd_disconnect/drbd_rs_cancel_all
				1119	* the resync lru has been cleaned up already */
Lars Ellenberg	1d53f09	2010-09-05 01:13:24 +0200	[diff] [blame]	1120	if (get_ldev(mdev)) {
				1121	drbd_rs_complete_io(mdev, e->sector);
				1122	put_ldev(mdev);
				1123	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1124
Philipp Reisner	8571957	2010-07-21 10:20:17 +0200	[diff] [blame]	1125	di = e->digest;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1126
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1127	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1128	digest_size = crypto_hash_digestsize(mdev->verify_tfm);
				1129	digest = kmalloc(digest_size, GFP_NOIO);
				1130	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1131	drbd_csum_ee(mdev, mdev->verify_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1132
				1133	D_ASSERT(digest_size == di->digest_size);
				1134	eq = !memcmp(digest, di->digest, digest_size);
				1135	kfree(digest);
				1136	}
				1137	} else {
				1138	ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
				1139	if (__ratelimit(&drbd_ratelimit_state))
				1140	dev_err(DEV, "Sending NegDReply. I guess it gets messy.\n");
				1141	}
				1142
				1143	dec_unacked(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1144	if (!eq)
				1145	drbd_ov_oos_found(mdev, e->sector, e->size);
				1146	else
				1147	ov_oos_print(mdev);
				1148
				1149	ok = drbd_send_ack_ex(mdev, P_OV_RESULT, e->sector, e->size,
				1150	eq ? ID_IN_SYNC : ID_OUT_OF_SYNC);
				1151
				1152	drbd_free_ee(mdev, e);
				1153
Lars Ellenberg	ea5442a	2010-11-05 09:48:01 +0100	[diff] [blame]	1154	--mdev->ov_left;
				1155
				1156	/* let's advance progress step marks only for every other megabyte */
				1157	if ((mdev->ov_left & 0x200) == 0x200)
				1158	drbd_advance_rs_marks(mdev, mdev->ov_left);
				1159
				1160	if (mdev->ov_left == 0) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1161	ov_oos_print(mdev);
				1162	drbd_resync_finished(mdev);
				1163	}
				1164
				1165	return ok;
				1166	}
				1167
				1168	int w_prev_work_done(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1169	{
				1170	struct drbd_wq_barrier *b = container_of(w, struct drbd_wq_barrier, w);
				1171	complete(&b->done);
				1172	return 1;
				1173	}
				1174
				1175	int w_send_barrier(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1176	{
				1177	struct drbd_tl_epoch *b = container_of(w, struct drbd_tl_epoch, w);
				1178	struct p_barrier *p = &mdev->data.sbuf.barrier;
				1179	int ok = 1;
				1180
				1181	/* really avoid racing with tl_clear. w.cb may have been referenced
				1182	* just before it was reassigned and re-queued, so double check that.
				1183	* actually, this race was harmless, since we only try to send the
				1184	* barrier packet here, and otherwise do nothing with the object.
				1185	* but compare with the head of w_clear_epoch */
				1186	spin_lock_irq(&mdev->req_lock);
				1187	if (w->cb != w_send_barrier \|\| mdev->state.conn < C_CONNECTED)
				1188	cancel = 1;
				1189	spin_unlock_irq(&mdev->req_lock);
				1190	if (cancel)
				1191	return 1;
				1192
				1193	if (!drbd_get_data_sock(mdev))
				1194	return 0;
				1195	p->barrier = b->br_number;
				1196	/* inc_ap_pending was done where this was queued.
				1197	* dec_ap_pending will be done in got_BarrierAck
				1198	* or (on connection loss) in w_clear_epoch. */
				1199	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BARRIER,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1200	(struct p_header80 )p, sizeof(p), 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1201	drbd_put_data_sock(mdev);
				1202
				1203	return ok;
				1204	}
				1205
				1206	int w_send_write_hint(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1207	{
				1208	if (cancel)
				1209	return 1;
				1210	return drbd_send_short_cmd(mdev, P_UNPLUG_REMOTE);
				1211	}
				1212
Philipp Reisner	73a01a1	2010-10-27 14:33:00 +0200	[diff] [blame]	1213	int w_send_oos(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1214	{
				1215	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1216	int ok;
				1217
				1218	if (unlikely(cancel)) {
				1219	req_mod(req, send_canceled);
				1220	return 1;
				1221	}
				1222
				1223	ok = drbd_send_oos(mdev, req);
				1224	req_mod(req, oos_handed_to_network);
				1225
				1226	return ok;
				1227	}
				1228
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1229	/**
				1230	* w_send_dblock() - Worker callback to send a P_DATA packet in order to mirror a write request
				1231	* @mdev: DRBD device.
				1232	* @w: work object.
				1233	* @cancel: The connection will be closed anyways
				1234	*/
				1235	int w_send_dblock(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1236	{
				1237	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1238	int ok;
				1239
				1240	if (unlikely(cancel)) {
				1241	req_mod(req, send_canceled);
				1242	return 1;
				1243	}
				1244
				1245	ok = drbd_send_dblock(mdev, req);
				1246	req_mod(req, ok ? handed_over_to_network : send_failed);
				1247
				1248	return ok;
				1249	}
				1250
				1251	/**
				1252	* w_send_read_req() - Worker callback to send a read request (P_DATA_REQUEST) packet
				1253	* @mdev: DRBD device.
				1254	* @w: work object.
				1255	* @cancel: The connection will be closed anyways
				1256	*/
				1257	int w_send_read_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1258	{
				1259	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1260	int ok;
				1261
				1262	if (unlikely(cancel)) {
				1263	req_mod(req, send_canceled);
				1264	return 1;
				1265	}
				1266
				1267	ok = drbd_send_drequest(mdev, P_DATA_REQUEST, req->sector, req->size,
				1268	(unsigned long)req);
				1269
				1270	if (!ok) {
				1271	/* ?? we set C_TIMEOUT or C_BROKEN_PIPE in drbd_send();
				1272	* so this is probably redundant */
				1273	if (mdev->state.conn >= C_CONNECTED)
				1274	drbd_force_state(mdev, NS(conn, C_NETWORK_FAILURE));
				1275	}
				1276	req_mod(req, ok ? handed_over_to_network : send_failed);
				1277
				1278	return ok;
				1279	}
				1280
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1281	int w_restart_disk_io(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1282	{
				1283	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1284
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	1285	if (bio_data_dir(req->master_bio) == WRITE && req->rq_state & RQ_IN_ACT_LOG)
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1286	drbd_al_begin_io(mdev, req->sector);
				1287	/* Calling drbd_al_begin_io() out of the worker might deadlocks
				1288	theoretically. Practically it can not deadlock, since this is
				1289	only used when unfreezing IOs. All the extents of the requests
				1290	that made it into the TL are already active */
				1291
				1292	drbd_req_make_private_bio(req, req->master_bio);
				1293	req->private_bio->bi_bdev = mdev->ldev->backing_bdev;
				1294	generic_make_request(req->private_bio);
				1295
				1296	return 1;
				1297	}
				1298
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1299	static int _drbd_may_sync_now(struct drbd_conf *mdev)
				1300	{
				1301	struct drbd_conf *odev = mdev;
				1302
				1303	while (1) {
				1304	if (odev->sync_conf.after == -1)
				1305	return 1;
				1306	odev = minor_to_mdev(odev->sync_conf.after);
				1307	ERR_IF(!odev) return 1;
				1308	if ((odev->state.conn >= C_SYNC_SOURCE &&
				1309	odev->state.conn <= C_PAUSED_SYNC_T) \|\|
				1310	odev->state.aftr_isp \|\| odev->state.peer_isp \|\|
				1311	odev->state.user_isp)
				1312	return 0;
				1313	}
				1314	}
				1315
				1316	/**
				1317	* _drbd_pause_after() - Pause resync on all devices that may not resync now
				1318	* @mdev: DRBD device.
				1319	*
				1320	* Called from process context only (admin command and after_state_ch).
				1321	*/
				1322	static int _drbd_pause_after(struct drbd_conf *mdev)
				1323	{
				1324	struct drbd_conf *odev;
				1325	int i, rv = 0;
				1326
				1327	for (i = 0; i < minor_count; i++) {
				1328	odev = minor_to_mdev(i);
				1329	if (!odev)
				1330	continue;
				1331	if (odev->state.conn == C_STANDALONE && odev->state.disk == D_DISKLESS)
				1332	continue;
				1333	if (!_drbd_may_sync_now(odev))
				1334	rv \|= (__drbd_set_state(_NS(odev, aftr_isp, 1), CS_HARD, NULL)
				1335	!= SS_NOTHING_TO_DO);
				1336	}
				1337
				1338	return rv;
				1339	}
				1340
				1341	/**
				1342	* _drbd_resume_next() - Resume resync on all devices that may resync now
				1343	* @mdev: DRBD device.
				1344	*
				1345	* Called from process context only (admin command and worker).
				1346	*/
				1347	static int _drbd_resume_next(struct drbd_conf *mdev)
				1348	{
				1349	struct drbd_conf *odev;
				1350	int i, rv = 0;
				1351
				1352	for (i = 0; i < minor_count; i++) {
				1353	odev = minor_to_mdev(i);
				1354	if (!odev)
				1355	continue;
				1356	if (odev->state.conn == C_STANDALONE && odev->state.disk == D_DISKLESS)
				1357	continue;
				1358	if (odev->state.aftr_isp) {
				1359	if (_drbd_may_sync_now(odev))
				1360	rv \|= (__drbd_set_state(_NS(odev, aftr_isp, 0),
				1361	CS_HARD, NULL)
				1362	!= SS_NOTHING_TO_DO) ;
				1363	}
				1364	}
				1365	return rv;
				1366	}
				1367
				1368	void resume_next_sg(struct drbd_conf *mdev)
				1369	{
				1370	write_lock_irq(&global_state_lock);
				1371	_drbd_resume_next(mdev);
				1372	write_unlock_irq(&global_state_lock);
				1373	}
				1374
				1375	void suspend_other_sg(struct drbd_conf *mdev)
				1376	{
				1377	write_lock_irq(&global_state_lock);
				1378	_drbd_pause_after(mdev);
				1379	write_unlock_irq(&global_state_lock);
				1380	}
				1381
				1382	static int sync_after_error(struct drbd_conf *mdev, int o_minor)
				1383	{
				1384	struct drbd_conf *odev;
				1385
				1386	if (o_minor == -1)
				1387	return NO_ERROR;
				1388	if (o_minor < -1 \|\| minor_to_mdev(o_minor) == NULL)
				1389	return ERR_SYNC_AFTER;
				1390
				1391	/* check for loops */
				1392	odev = minor_to_mdev(o_minor);
				1393	while (1) {
				1394	if (odev == mdev)
				1395	return ERR_SYNC_AFTER_CYCLE;
				1396
				1397	/* dependency chain ends here, no cycles. */
				1398	if (odev->sync_conf.after == -1)
				1399	return NO_ERROR;
				1400
				1401	/* follow the dependency chain */
				1402	odev = minor_to_mdev(odev->sync_conf.after);
				1403	}
				1404	}
				1405
				1406	int drbd_alter_sa(struct drbd_conf *mdev, int na)
				1407	{
				1408	int changes;
				1409	int retcode;
				1410
				1411	write_lock_irq(&global_state_lock);
				1412	retcode = sync_after_error(mdev, na);
				1413	if (retcode == NO_ERROR) {
				1414	mdev->sync_conf.after = na;
				1415	do {
				1416	changes = _drbd_pause_after(mdev);
				1417	changes \|= _drbd_resume_next(mdev);
				1418	} while (changes);
				1419	}
				1420	write_unlock_irq(&global_state_lock);
				1421	return retcode;
				1422	}
				1423
Lars Ellenberg	9bd28d3	2010-11-05 09:55:18 +0100	[diff] [blame]	1424	void drbd_rs_controller_reset(struct drbd_conf *mdev)
				1425	{
				1426	atomic_set(&mdev->rs_sect_in, 0);
				1427	atomic_set(&mdev->rs_sect_ev, 0);
				1428	mdev->rs_in_flight = 0;
				1429	mdev->rs_planed = 0;
				1430	spin_lock(&mdev->peer_seq_lock);
				1431	fifo_set(&mdev->rs_plan_s, 0);
				1432	spin_unlock(&mdev->peer_seq_lock);
				1433	}
				1434
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1435	/**
				1436	* drbd_start_resync() - Start the resync process
				1437	* @mdev: DRBD device.
				1438	* @side: Either C_SYNC_SOURCE or C_SYNC_TARGET
				1439	*
				1440	* This function might bring you directly into one of the
				1441	* C_PAUSED_SYNC_* states.
				1442	*/
				1443	void drbd_start_resync(struct drbd_conf *mdev, enum drbd_conns side)
				1444	{
				1445	union drbd_state ns;
				1446	int r;
				1447
Philipp Reisner	c4752ef	2010-10-27 17:32:36 +0200	[diff] [blame]	1448	if (mdev->state.conn >= C_SYNC_SOURCE && mdev->state.conn < C_AHEAD) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1449	dev_err(DEV, "Resync already running!\n");
				1450	return;
				1451	}
				1452
Philipp Reisner	59817f4	2010-10-29 12:44:20 +0200	[diff] [blame]	1453	if (mdev->state.conn < C_AHEAD) {
				1454	/* In case a previous resync run was aborted by an IO error/detach on the peer. */
				1455	drbd_rs_cancel_all(mdev);
				1456	/* This should be done when we abort the resync. We definitely do not
				1457	want to have this for connections going back and forth between
				1458	Ahead/Behind and SyncSource/SyncTarget */
				1459	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1460
				1461	if (side == C_SYNC_TARGET) {
				1462	/* Since application IO was locked out during C_WF_BITMAP_T and
				1463	C_WF_SYNC_UUID we are still unmodified. Before going to C_SYNC_TARGET
				1464	we check that we might make the data inconsistent. */
				1465	r = drbd_khelper(mdev, "before-resync-target");
				1466	r = (r >> 8) & 0xff;
				1467	if (r > 0) {
				1468	dev_info(DEV, "before-resync-target handler returned %d, "
				1469	"dropping connection.\n", r);
				1470	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				1471	return;
				1472	}
Philipp Reisner	09b9e79	2010-12-03 16:04:24 +0100	[diff] [blame]	1473	} else /* C_SYNC_SOURCE */ {
				1474	r = drbd_khelper(mdev, "before-resync-source");
				1475	r = (r >> 8) & 0xff;
				1476	if (r > 0) {
				1477	if (r == 3) {
				1478	dev_info(DEV, "before-resync-source handler returned %d, "
				1479	"ignoring. Old userland tools?", r);
				1480	} else {
				1481	dev_info(DEV, "before-resync-source handler returned %d, "
				1482	"dropping connection.\n", r);
				1483	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				1484	return;
				1485	}
				1486	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1487	}
				1488
				1489	drbd_state_lock(mdev);
				1490
				1491	if (!get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1492	drbd_state_unlock(mdev);
				1493	return;
				1494	}
				1495
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1496	write_lock_irq(&global_state_lock);
				1497	ns = mdev->state;
				1498
				1499	ns.aftr_isp = !_drbd_may_sync_now(mdev);
				1500
				1501	ns.conn = side;
				1502
				1503	if (side == C_SYNC_TARGET)
				1504	ns.disk = D_INCONSISTENT;
				1505	else /* side == C_SYNC_SOURCE */
				1506	ns.pdsk = D_INCONSISTENT;
				1507
				1508	r = __drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
				1509	ns = mdev->state;
				1510
				1511	if (ns.conn < C_CONNECTED)
				1512	r = SS_UNKNOWN_ERROR;
				1513
				1514	if (r == SS_SUCCESS) {
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1515	unsigned long tw = drbd_bm_total_weight(mdev);
				1516	unsigned long now = jiffies;
				1517	int i;
				1518
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1519	mdev->rs_failed = 0;
				1520	mdev->rs_paused = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1521	mdev->rs_same_csum = 0;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	1522	mdev->rs_last_events = 0;
				1523	mdev->rs_last_sect_ev = 0;
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1524	mdev->rs_total = tw;
				1525	mdev->rs_start = now;
				1526	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
				1527	mdev->rs_mark_left[i] = tw;
				1528	mdev->rs_mark_time[i] = now;
				1529	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1530	_drbd_pause_after(mdev);
				1531	}
				1532	write_unlock_irq(&global_state_lock);
Lars Ellenberg	5a22db8	2010-12-17 21:14:23 +0100	[diff] [blame]	1533
				1534	if (side == C_SYNC_TARGET)
				1535	mdev->bm_resync_fo = 0;
				1536
				1537	/* Since protocol 96, we must serialize drbd_gen_and_send_sync_uuid
				1538	* with w_send_oos, or the sync target will get confused as to
				1539	* how much bits to resync. We cannot do that always, because for an
				1540	* empty resync and protocol < 95, we need to do it here, as we call
				1541	* drbd_resync_finished from here in that case.
				1542	* We drbd_gen_and_send_sync_uuid here for protocol < 96,
				1543	* and from after_state_ch otherwise. */
				1544	if (side == C_SYNC_SOURCE && mdev->agreed_pro_version < 96)
				1545	drbd_gen_and_send_sync_uuid(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1546
				1547	if (r == SS_SUCCESS) {
				1548	dev_info(DEV, "Began resync as %s (will sync %lu KB [%lu bits set]).\n",
				1549	drbd_conn_str(ns.conn),
				1550	(unsigned long) mdev->rs_total << (BM_BLOCK_SHIFT-10),
				1551	(unsigned long) mdev->rs_total);
				1552
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	1553	if (mdev->agreed_pro_version < 95 && mdev->rs_total == 0) {
				1554	/* This still has a race (about when exactly the peers
				1555	* detect connection loss) that can lead to a full sync
				1556	* on next handshake. In 8.3.9 we fixed this with explicit
				1557	* resync-finished notifications, but the fix
				1558	* introduces a protocol change. Sleeping for some
				1559	* time longer than the ping interval + timeout on the
				1560	* SyncSource, to give the SyncTarget the chance to
				1561	* detect connection loss, then waiting for a ping
				1562	* response (implicit in drbd_resync_finished) reduces
				1563	* the race considerably, but does not solve it. */
				1564	if (side == C_SYNC_SOURCE)
				1565	schedule_timeout_interruptible(
				1566	mdev->net_conf->ping_int * HZ +
				1567	mdev->net_conf->ping_timeo*HZ/9);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1568	drbd_resync_finished(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1569	}
				1570
Lars Ellenberg	9bd28d3	2010-11-05 09:55:18 +0100	[diff] [blame]	1571	drbd_rs_controller_reset(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1572	/* ns.conn may already be != mdev->state.conn,
				1573	* we may have been paused in between, or become paused until
				1574	* the timer triggers.
				1575	* No matter, that is handled in resync_timer_fn() */
				1576	if (ns.conn == C_SYNC_TARGET)
				1577	mod_timer(&mdev->resync_timer, jiffies);
				1578
				1579	drbd_md_sync(mdev);
				1580	}
Lars Ellenberg	5a22db8	2010-12-17 21:14:23 +0100	[diff] [blame]	1581	put_ldev(mdev);
Philipp Reisner	d0c3f60	2010-03-02 15:06:45 +0100	[diff] [blame]	1582	drbd_state_unlock(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1583	}
				1584
				1585	int drbd_worker(struct drbd_thread *thi)
				1586	{
				1587	struct drbd_conf *mdev = thi->mdev;
				1588	struct drbd_work *w = NULL;
				1589	LIST_HEAD(work_list);
				1590	int intr = 0, i;
				1591
				1592	sprintf(current->comm, "drbd%d_worker", mdev_to_minor(mdev));
				1593
				1594	while (get_t_state(thi) == Running) {
				1595	drbd_thread_current_set_cpu(mdev);
				1596
				1597	if (down_trylock(&mdev->data.work.s)) {
				1598	mutex_lock(&mdev->data.mutex);
				1599	if (mdev->data.socket && !mdev->net_conf->no_cork)
				1600	drbd_tcp_uncork(mdev->data.socket);
				1601	mutex_unlock(&mdev->data.mutex);
				1602
				1603	intr = down_interruptible(&mdev->data.work.s);
				1604
				1605	mutex_lock(&mdev->data.mutex);
				1606	if (mdev->data.socket && !mdev->net_conf->no_cork)
				1607	drbd_tcp_cork(mdev->data.socket);
				1608	mutex_unlock(&mdev->data.mutex);
				1609	}
				1610
				1611	if (intr) {
				1612	D_ASSERT(intr == -EINTR);
				1613	flush_signals(current);
				1614	ERR_IF (get_t_state(thi) == Running)
				1615	continue;
				1616	break;
				1617	}
				1618
				1619	if (get_t_state(thi) != Running)
				1620	break;
				1621	/* With this break, we have done a down() but not consumed
				1622	the entry from the list. The cleanup code takes care of
				1623	this... */
				1624
				1625	w = NULL;
				1626	spin_lock_irq(&mdev->data.work.q_lock);
				1627	ERR_IF(list_empty(&mdev->data.work.q)) {
				1628	/* something terribly wrong in our logic.
				1629	* we were able to down() the semaphore,
				1630	* but the list is empty... doh.
				1631	*
				1632	* what is the best thing to do now?
				1633	* try again from scratch, restarting the receiver,
				1634	* asender, whatnot? could break even more ugly,
				1635	* e.g. when we are primary, but no good local data.
				1636	*
				1637	* I'll try to get away just starting over this loop.
				1638	*/
				1639	spin_unlock_irq(&mdev->data.work.q_lock);
				1640	continue;
				1641	}
				1642	w = list_entry(mdev->data.work.q.next, struct drbd_work, list);
				1643	list_del_init(&w->list);
				1644	spin_unlock_irq(&mdev->data.work.q_lock);
				1645
				1646	if (!w->cb(mdev, w, mdev->state.conn < C_CONNECTED)) {
				1647	/* dev_warn(DEV, "worker: a callback failed! \n"); */
				1648	if (mdev->state.conn >= C_CONNECTED)
				1649	drbd_force_state(mdev,
				1650	NS(conn, C_NETWORK_FAILURE));
				1651	}
				1652	}
				1653	D_ASSERT(test_bit(DEVICE_DYING, &mdev->flags));
				1654	D_ASSERT(test_bit(CONFIG_PENDING, &mdev->flags));
				1655
				1656	spin_lock_irq(&mdev->data.work.q_lock);
				1657	i = 0;
				1658	while (!list_empty(&mdev->data.work.q)) {
				1659	list_splice_init(&mdev->data.work.q, &work_list);
				1660	spin_unlock_irq(&mdev->data.work.q_lock);
				1661
				1662	while (!list_empty(&work_list)) {
				1663	w = list_entry(work_list.next, struct drbd_work, list);
				1664	list_del_init(&w->list);
				1665	w->cb(mdev, w, 1);
				1666	i++; /* dead debugging code */
				1667	}
				1668
				1669	spin_lock_irq(&mdev->data.work.q_lock);
				1670	}
				1671	sema_init(&mdev->data.work.s, 0);
				1672	/* DANGEROUS race: if someone did queue his work within the spinlock,
				1673	* but up() ed outside the spinlock, we could get an up() on the
				1674	* semaphore without corresponding list entry.
				1675	* So don't do that.
				1676	*/
				1677	spin_unlock_irq(&mdev->data.work.q_lock);
				1678
				1679	D_ASSERT(mdev->state.disk == D_DISKLESS && mdev->state.conn == C_STANDALONE);
				1680	/* _drbd_set_state only uses stop_nowait.
				1681	* wait here for the Exiting receiver. */
				1682	drbd_thread_stop(&mdev->receiver);
				1683	drbd_mdev_cleanup(mdev);
				1684
				1685	dev_info(DEV, "worker terminated\n");
				1686
				1687	clear_bit(DEVICE_DYING, &mdev->flags);
				1688	clear_bit(CONFIG_PENDING, &mdev->flags);
				1689	wake_up(&mdev->state_wait);
				1690
				1691	return 0;
				1692	}