常用内建模块(一)
一、datetime
datetime
是Python处理日期和时间的标准库。
1.1 获取当前日期和时间
1 |
|
注意到datetime
是模块,datetime
模块还包含一个datetime
类,通过from datetime import datetime
导入的才是datetime
这个类。
如果仅导入import datetime
,则必须引用全名datetime.datetime
。
datetime.now()
返回当前日期和时间,其类型是datetime
。
1.2 获取指定日期和时间
指定某个日期和时间,我们直接用参数构造一个datetime
:
1 | from datetime import datetime |
1.3 datetime转换为timestamp
在计算机中,时间实际上是用数字表示的。我们把1970年1月1日 00:00:00 UTC+00:00时区的时刻称为epoch time,记为0
(1970年以前的时间timestamp为负数),当前时间就是相对于epoch time的秒数,称为timestamp。
你可以认为:
1 | timestamp = 0 = 1970-1-1 00:00:00 UTC+0:00 |
对应的北京时间是:
1 | timestamp = 0 = 1970-1-1 08:00:00 UTC+8:00 |
可见timestamp的值与时区毫无关系,因为timestamp一旦确定,其UTC时间就确定了,转换到任意时区的时间也是完全确定的,这就是为什么计算机存储的当前时间是以timestamp表示的,因为全球各地的计算机在任意时刻的timestamp都是完全相同的(假定时间已校准)。
把一个datetime
类型转换为timestamp只需要简单调用timestamp()
方法:
1 | from datetime import datetime |
注意Python的timestamp是一个浮点数,整数位表示秒。某些编程语言(如Java和JavaScript)的timestamp使用整数表示毫秒数,这种情况下只需要把timestamp除以1000就得到Python的浮点表示方法。
1.4 timestamp转换为datetime
要把timestamp转换为datetime
,使用datetime
提供的fromtimestamp()
方法:
1 | from datetime import datetime |
注意到timestamp是一个浮点数,它没有时区的概念,而datetime是有时区的。上述转换是在timestamp和本地时间做转换。
本地时间是指当前操作系统设定的时区。例如北京时区是东8区,则本地时间:
1 | 2023-07-30 12:00:00 |
实际上就是UTC+8:00时区的时间:
1 | 2023-07-30 12:00:00 UTC+8:00 |
而此刻的格林威治标准时间与北京时间差了8小时,也就是UTC+0:00时区的时间应该是:
1 | 2015-04-19 04:00:00 UTC+0:00 |
timestamp也可以直接被转换到UTC标准时区的时间:
1 | from datetime import datetime |
1.5 str转换为datetime
很多时候,用户输入的日期和时间是字符串,要处理日期和时间,首先必须把str转换为datetime。转换方法是通过datetime.strptime()
实现,需要一个日期和时间的格式化字符串:
1 | from datetime import datetime |
字符串'%Y-%m-%d %H:%M:%S'
规定了日期和时间部分的格式。详细的说明请参考Python文档。
注意转换后的datetime是没有时区信息的。
1.6 datetime转换为str
如果已经有了datetime对象,要把它格式化为字符串显示给用户,就需要转换为str,转换方法是通过strftime()
实现的,同样需要一个日期和时间的格式化字符串:
1 | from datetime import datetime |
1.7 datetime加减
对日期和时间进行加减实际上就是把datetime往后或往前计算,得到新的datetime。加减可以直接用+
和-
运算符,不过需要导入timedelta
这个类:
1 | from datetime import datetime, timedelta |
可见,使用timedelta
你可以很容易地算出前几天和后几天的时刻。
1.8 本地时间转UTC时间
本地时间是指系统设定时区的时间,例如北京时间是UTC+8:00时区的时间,而UTC时间指UTC+0:00时区的时间。
一个datetime
类型有一个时区属性tzinfo
,但是默认为None
,所以无法区分这个datetime
到底是哪个时区,除非强行给datetime
设置一个时区:
1 | from datetime import datetime, timedelta, timezone |
1.9 时区转换
我们可以先通过utcnow()
拿到当前的UTC时间,再转换为任意时区的时间:
1 | # 拿到UTC时间,并强制设置时区为UTC+0:00: |
时区转换的关键在于,拿到一个datetime
时,要获知其正确的时区,然后强制设置时区,作为基准时间。
利用带时区的datetime
,通过astimezone()
方法,可以转换到任意时区。
注:不是必须从UTC+0:00时区转换到其他时区,任何带时区的datetime
都可以正确转换,例如上述bj_dt
到tokyo_dt
的转换。
二、collections
collections是Python内建的一个集合模块,提供了许多有用的集合类。
2.1 namedtuple
我们知道tuple
可以表示不变集合,例如,一个点的二维坐标就可以表示成:
1 | 1, 2) p = ( |
但是,看到(1, 2)
,很难看出这个tuple
是用来表示一个坐标的。
定义一个class又小题大做了,这时,namedtuple
就派上了用场:
1 | from collections import namedtuple |
namedtuple
是一个函数,它用来创建一个自定义的tuple
对象,并且规定了tuple
元素的个数,并可以用属性而不是索引来引用tuple
的某个元素。
这样一来,我们用namedtuple
可以很方便地定义一种数据类型,它具备tuple的不变性,又可以根据属性来引用,使用十分方便。
可以验证创建的Point
对象是tuple
的一种子类:
1 | isinstance(p, Point) |
类似的,如果要用坐标和半径表示一个圆,也可以用namedtuple
定义:
1 | # namedtuple('名称', [属性list]): |
2.2 deque
使用list
存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,因为list
是线性存储,数据量大的时候,插入和删除效率很低。
deque是为了高效实现插入和删除操作的双向列表,适合用于队列和栈:
1 | from collections import deque |
deque
除了实现list的append()
和pop()
外,还支持appendleft()
和popleft()
,这样就可以非常高效地往头部添加或删除元素。
2.3 defaultdict
使用dict
时,如果引用的Key不存在,就会抛出KeyError
。如果希望key不存在时,返回一个默认值,就可以用defaultdict
:
1 | from collections import defaultdict |
注意默认值是调用函数返回的,而函数在创建defaultdict
对象时传入。
除了在Key不存在时返回默认值,defaultdict
的其他行为跟dict
是完全一样的。
2.4 OrderedDict
使用dict
时,Key是无序的。在对dict
做迭代时,我们无法确定Key的顺序。
如果要保持Key的顺序,可以用OrderedDict
:
1 | from collections import OrderedDict |
注意,OrderedDict
的Key会按照插入的顺序排列,不是Key本身排序:
1 | od = OrderedDict() |
OrderedDict
可以实现一个FIFO(先进先出)的dict,当容量超出限制时,先删除最早添加的Key:
1 | from collections import OrderedDict |
2.5 ChainMap
ChainMap
可以把一组dict
串起来并组成一个逻辑上的dict
。ChainMap
本身也是一个dict,但是查找的时候,会按照顺序在内部的dict依次查找。
什么时候使用ChainMap
最合适?举个例子:应用程序往往都需要传入参数,参数可以通过命令行传入,可以通过环境变量传入,还可以有默认参数。我们可以用ChainMap
实现参数的优先级查找,即先查命令行参数,如果没有传入,再查环境变量,如果没有,就使用默认参数。下面的代码演示了如何查找user
和color
这两个参数:
1 | from collections import ChainMap |
没有任何参数时,打印出默认参数:
1 | $ python3 use_chainmap.py |
当传入命令行参数时,优先使用命令行参数:
1 | $ python3 use_chainmap.py -u bob |
同时传入命令行参数和环境变量,命令行参数的优先级较高:
1 | $ user=admin color=green python3 use_chainmap.py -u bob |
2.6 Counter
Counter
是一个简单的计数器,例如,统计字符出现的个数:
1 | from collections import Counter |
Counter
实际上也是dict
的一个子类,上面的结果可以看出每个字符出现的次数。