Python函數(shù)式編程指南(三):迭代器
這一篇我們將討論迭代器。迭代器并不是函數(shù)式編程特有的東西,但它仍然是函數(shù)式編程的一個重要的組成部分,或者說是一個重要的工具。
轉(zhuǎn)載請注明原作者和原文地址:)
3. 迭代器
3.1. 迭代器(Iterator)概述
迭代器是訪問集合內(nèi)元素的一種方式。迭代器對象從集合的第一個元素開始訪問,直到所有的元素都被訪問一遍后結(jié)束。
迭代器不能回退,只能往前進(jìn)行迭代。這并不是什么很大的缺點(diǎn),因?yàn)槿藗儙缀醪恍枰诘局羞M(jìn)行回退操作。
迭代器也不是線程安全的,在多線程環(huán)境中對可變集合使用迭代器是一個危險(xiǎn)的操作。但如果小心謹(jǐn)慎,或者干脆貫徹函數(shù)式思想堅(jiān)持使用不可變的集合,那這也不是什么大問題。
對于原生支持隨機(jī)訪問的數(shù)據(jù)結(jié)構(gòu)(如tuple、list),迭代器和經(jīng)典for循環(huán)的索引訪問相比并無優(yōu)勢,反而丟失了索引值(可以使用內(nèi)建函數(shù)enumerate()找回這個索引值,這是后話)。但對于無法隨機(jī)訪問的數(shù)據(jù)結(jié)構(gòu)(比如set)而言,迭代器是唯一的訪問元素的方式。
迭代器的另一個優(yōu)點(diǎn)就是它不要求你事先準(zhǔn)備好整個迭代過程中所有的元素。迭代器僅僅在迭代至某個元素時(shí)才計(jì)算該元素,而在這之前或之后,元素可以不存在或者被銷毀。這個特點(diǎn)使得它特別適合用于遍歷一些巨大的或是無限的集合,比如幾個G的文件,或是斐波那契數(shù)列等等。這個特點(diǎn)被稱為延遲計(jì)算或惰性求值(Lazy evaluation)。
迭代器更大的功勞是提供了一個統(tǒng)一的訪問集合的接口。只要是實(shí)現(xiàn)了__iter__()方法的對象,就可以使用迭代器進(jìn)行訪問。
3.2. 使用迭代器
使用內(nèi)建的工廠函數(shù)iter(iterable)可以獲取迭代器對象:
了解了這些情況以后,我們就能使用迭代器進(jìn)行遍歷了。
常用的幾個內(nèi)建數(shù)據(jù)結(jié)構(gòu)tuple、list、set、dict都支持迭代器,字符串也可以使用迭代操作。你也可以自己實(shí)現(xiàn)一個迭代器,如上所述,只需要在類的__iter__方法中返回一個對象,這個對象擁有一個next()方法,這個方法能在恰當(dāng)?shù)臅r(shí)候拋出StopIteration異常即可。但是需要自己實(shí)現(xiàn)迭代器的時(shí)候不多,即使需要,使用生成器會更輕松。下一篇我們將討論生成器的部分。
*異常并不是非拋出不可的,不拋出該異常的迭代器將進(jìn)行無限迭代,某些情況下這樣的迭代器很有用。這種情況下,你需要自己判斷元素并中止,否則就死循環(huán)了!
使用迭代器的循環(huán)可以避開索引,但有時(shí)候我們還是需要索引來進(jìn)行一些操作的。這時(shí)候內(nèi)建函數(shù)enumerate就派上用場咯,它能在iter函數(shù)的結(jié)果前加上索引,以元組返回,用起來就像這樣:
絕大多數(shù)情況下,遍歷一個集合都是為了對元素應(yīng)用某個動作或是進(jìn)行篩選。如果看過本文的第二部分,你應(yīng)該還記得有內(nèi)建函數(shù)map和filter提供了這些功能,但Python仍然為這些操作提供了語言級的支持。
你也可以為列表解析提供if子句進(jìn)行篩選:
第一個問題是,因?yàn)閷υ貞?yīng)用的動作太復(fù)雜,不能用一個表達(dá)式寫出來,所以不使用列表解析。這是典型的思想沒有轉(zhuǎn)變的例子,如果我們將動作封裝成函數(shù),那不就是一個表達(dá)式了么?
第二個問題是,因?yàn)閕f子句里的條件需要計(jì)算,同時(shí)結(jié)果也需要進(jìn)行同樣的計(jì)算,不希望計(jì)算兩遍,就像這樣:
內(nèi)部的列表解析變量其實(shí)也可以用x,但為清晰起見我們改成了y。或者更清楚的,可以寫成兩個表達(dá)式:
3.4. 相關(guān)的庫
Python內(nèi)置了一個模塊itertools,包含了很多函數(shù)用于creating iterators for efficient looping(創(chuàng)建更有效率的循環(huán)迭代器),這說明很是霸氣,這一小節(jié)就來瀏覽一遍這些函數(shù)并留下印象吧,需要這些功能的時(shí)候隱約記得這里面有就好。這一小節(jié)的內(nèi)容翻譯自itertools模塊官方文檔。
3.4.1. 無限迭代
- count(start, [step])
從start開始,以后每個元素都加上step。step默認(rèn)值為1。
count(10) –> 10 11 12 13 14 … - cycle(p)
迭代至序列p的最后一個元素后,從p的第一個元素重新開始。
cycle(‘ABCD’) –> A B C D A B C D … - repeat(elem [,n])
將elem重復(fù)n次。如果不指定n,則無限重復(fù)。
repeat(10, 3) –> 10 10 10
3.4.2. 在最短的序列參數(shù)終止時(shí)停止迭代
- chain(p, q, …)
迭代至序列p的最后一個元素后,從q的第一個元素開始,直到所有序列終止。
chain(‘ABC’, ‘DEF’) –> A B C D E F - compress(data, selectors)
如果bool(selectors[n])為True,則next()返回data[n],否則跳過data[n]。
compress(‘ABCDEF’, [1,0,1,0,1,1]) –> A C E F - dropwhile(pred, seq)
當(dāng)pred對seq[n]的調(diào)用返回False時(shí)才開始迭代。
dropwhile(lambda x: x<5, [1,4,6,4,1]) –> 6 4 1 - takewhile(pred, seq)
dropwhile的相反版本。
takewhile(lambda x: x<5, [1,4,6,4,1]) –> 1 4 - ifilter(pred, seq)
內(nèi)建函數(shù)filter的迭代器版本。
ifilter(lambda x: x%2, range(10)) –> 1 3 5 7 9 - ifilterfalse(pred, seq)
ifilter的相反版本。
ifilterfalse(lambda x: x%2, range(10)) –> 0 2 4 6 8 - imap(func, p, q, …)
內(nèi)建函數(shù)map的迭代器版本。
imap(pow, (2,3,10), (5,2,3)) –> 32 9 1000 - starmap(func, seq)
將seq的每個元素以變長參數(shù)(*args)的形式調(diào)用func。
starmap(pow, [(2,5), (3,2), (10,3)]) –> 32 9 1000 - izip(p, q, …)
內(nèi)建函數(shù)zip的迭代器版本。
izip(‘ABCD’, ‘xy’) –> Ax By - izip_longest(p, q, …, fillvalue=None)
izip的取最長序列的版本,短序列將填入fillvalue。
izip_longest(‘ABCD’, ‘xy’, fillvalue=’-‘) –> Ax By C- D- - tee(it, n)
返回n個迭代器it的復(fù)制迭代器。 - groupby(iterable[, keyfunc])
這個函數(shù)功能類似于SQL的分組。使用groupby前,首先需要使用相同的keyfunc對iterable進(jìn)行排序,比如調(diào)用內(nèi)建的sorted函數(shù)。然后,groupby返回迭代器,每次迭代的元素是元組(key值, iterable中具有相同key值的元素的集合的子迭代器)?;蛟S看看Python的排序指南對理解這個函數(shù)有幫助。
groupby([0, 0, 0, 1, 1, 1, 2, 2, 2]) –> (0, (0 0 0)) (1, (1 1 1)) (2, (2 2 2))
3.4.3. 組合迭代器
- product(p, q, … [repeat=1])
笛卡爾積。
product(‘ABCD’, repeat=2) –> AA AB AC AD BA BB BC BD CA CB CC CD DA DB DC DD - permutations(p[, r])
去除重復(fù)的元素。
permutations(‘ABCD’, 2) –> AB AC AD BA BC BD CA CB CD DA DB DC - combinations(p, r)
排序后去除重復(fù)的元素。
combinations(‘ABCD’, 2) –> AB AC AD BC BD CD - combinations_with_replacement()
排序后,包含重復(fù)元素。
combinations_with_replacement(‘ABCD’, 2) –> AA AB AC AD BB BC BD CC CD DD
此篇結(jié)束。