数据框#

构造函数#

DataFrame([数据、索引、列、数据类型、副本])

二维、大小可变、可能异构的表格数据。

属性和基础数据#

DataFrame.index

DataFrame 的索引(行标签)。

DataFrame.columns

DataFrame 的列标签。

DataFrame.dtypes

返回 DataFrame 中的 dtype。

DataFrame.info([详细、buf、max_cols、...])

打印 DataFrame 的简洁摘要。

DataFrame.select_dtypes([包括、排除])

根据列 dtypes 返回 DataFrame 列的子集。

DataFrame.values

返回 DataFrame 的 Numpy 表示形式。

DataFrame.axes

返回表示 DataFrame 轴的列表。

DataFrame.ndim

返回一个 int 表示轴数/数组维度。

DataFrame.size

返回一个 int 表示该对象中元素的数量。

DataFrame.shape

返回表示 DataFrame 维度的元组。

DataFrame.memory_usage([索引,深度])

返回每列的内存使用情况(以字节为单位)。

DataFrame.empty

指示Series/DataFrame是否为空。

DataFrame.set_flags(*[, 复制, ...])

返回带有更新标志的新对象。

转换

DataFrame.astype(dtype[, 复制, 错误])

将 pandas 对象转换为指定的 dtype dtype

DataFrame.convert_dtypes([推断对象,...])

使用 dtypes 支持将列转换为最佳可能的 dtypes pd.NA

DataFrame.infer_objects([复制])

尝试为对象列推断更好的数据类型。

DataFrame.copy([深的])

复制该对象的索引和数据。

DataFrame.bool()

(已弃用)返回单个元素 Series 或 DataFrame 的 bool。

DataFrame.to_numpy([dtype, 副本, na_value])

将 DataFrame 转换为 NumPy 数组。

索引、迭代#

DataFrame.head([n])

返回前n行。

DataFrame.at

访问行/列标签对的单个值。

DataFrame.iat

按整数位置访问行/列对的单个值。

DataFrame.loc

通过标签或布尔数组访问一组行和列。

DataFrame.iloc

(已弃用)纯粹基于整数位置的索引,用于按位置选择。

DataFrame.insert(loc, 列, 值[, ...])

将列插入 DataFrame 中的指定位置。

DataFrame.__iter__()

迭代信息轴。

DataFrame.items()

迭代(列名称,系列)对。

DataFrame.keys()

获取“信息轴”(有关更多信息,请参阅索引)。

DataFrame.iterrows()

将 DataFrame 行作为(索引,系列)对进行迭代。

DataFrame.itertuples([索引、名称])

将 DataFrame 行作为命名元组进行迭代。

DataFrame.pop(物品)

返回物品并从框架中掉落。

DataFrame.tail([n])

返回最后n行。

DataFrame.xs(键[,轴,级别,drop_level])

从系列/数据帧返回横截面。

DataFrame.get(键[,默认])

从给定键的对象中获取项目(例如:DataFrame 列)。

DataFrame.isin(数值)

DataFrame 中的每个元素是否包含在值中。

DataFrame.where(条件[,其他,就地,...])

替换条件为 False 的值。

DataFrame.mask(cond[,其他,就地,轴,...])

替换条件为 True 的值。

DataFrame.query(expr, *[, 就地])

使用布尔表达式查询 DataFrame 的列。

有关.at.iat.loc和 的 更多信息.iloc,请参阅索引文档

二元运算符函数#

DataFrame.__add__(其他)

按列添加 DataFrame 和其他数据。

DataFrame.add(其他[,轴,级别,填充值])

获取数据帧和其他元素的加法(二元运算符add)。

DataFrame.sub(其他[,轴,级别,填充值])

获取数据帧和其他元素的减法(二元运算符sub)。

DataFrame.mul(其他[,轴,级别,填充值])

获取数据帧和其他元素的乘法(二元运算符mul)。

DataFrame.div(其他[,轴,级别,填充值])

获取数据帧和其他元素的浮动除法(二元运算符truediv)。

DataFrame.truediv(其他[,轴,级别,...])

获取数据帧和其他元素的浮动除法(二元运算符truediv)。

DataFrame.floordiv(其他[,轴,级别,...])

获取数据帧和其他元素的整数除法(二元运算符Floordiv)。

DataFrame.mod(其他[,轴,级别,填充值])

获取数据帧和其他元素的模(二元运算符mod)。

DataFrame.pow(其他[,轴,级别,填充值])

获取数据帧和其他元素的指数幂(二元运算符pow)。

DataFrame.dot(其他)

计算 DataFrame 和其他 DataFrame 之间的矩阵乘法。

DataFrame.radd(其他[,轴,级别,填充值])

获取数据帧和其他元素的加法(二元运算符radd)。

DataFrame.rsub(其他[,轴,级别,填充值])

获取数据帧和其他元素的减法(二元运算符rsub)。

DataFrame.rmul(其他[,轴,级别,填充值])

获取数据帧和其他元素的乘法(二元运算符rmul)。

DataFrame.rdiv(其他[,轴,级别,填充值])

获取数据帧和其他元素的浮动除法(二元运算符rtruediv)。

DataFrame.rtruediv(其他[,轴,级别,...])

获取数据帧和其他元素的浮动除法(二元运算符rtruediv)。

DataFrame.rfloordiv(其他[,轴,级别,...])

获取数据帧和其他元素的整数除法(二元运算符rfloordiv)。

DataFrame.rmod(其他[,轴,级别,填充值])

获取数据帧和其他元素的模(二元运算符rmod)。

DataFrame.rpow(其他[,轴,级别,填充值])

获取数据帧和其他元素的指数幂(二元运算符rpow)。

DataFrame.lt(其他[,轴,水平])

获取小于数据帧和其他元素的数据(二元运算符lt)。

DataFrame.gt(其他[,轴,水平])

获取大于数据帧和其他元素的数据(二元运算符gt)。

DataFrame.le(其他[,轴,水平])

获取小于或等于数据帧和其他元素(二元运算符le)。

DataFrame.ge(其他[,轴,水平])

获取大于或等于数据帧和其他元素(二元运算符ge)。

DataFrame.ne(其他[,轴,水平])

获取数据帧和其他元素的不等于(二元运算符ne)。

DataFrame.eq(其他[,轴,水平])

获取数据帧和其他元素的等于(二元运算符eq)。

DataFrame.combine(其他,func[,填充值,...])

与另一个 DataFrame 执行按列组合。

DataFrame.combine_first(其他)

使用other中相同位置的值更新 null 元素。

函数应用、GroupBy 和窗口#

DataFrame.apply(函数[,轴,原始,...])

沿 DataFrame 的轴应用函数。

DataFrame.map(func[, na_action])

按元素将函数应用于数据框。

DataFrame.applymap(func[, na_action])

(已弃用)将函数按元素应用于 Dataframe。

DataFrame.pipe(func, *args, **kwargs)

应用需要 Series 或 DataFrame 的可链接函数。

DataFrame.agg([函数,轴])

使用指定轴上的一项或多项操作进行聚合。

DataFrame.aggregate([函数,轴])

使用指定轴上的一项或多项操作进行聚合。

DataFrame.transform(函数[,轴])

调用funcself 生成一个与 self 具有相同轴形状的 DataFrame。

DataFrame.groupby([按、轴、级别、...])

使用映射器或一系列列对 DataFrame 进行分组。

DataFrame.rolling(窗口[, min_periods, ...])

提供滚动窗口计算。

DataFrame.expanding([min_periods, 轴, 方法])

提供扩展窗口计算。

DataFrame.ewm([com、span、半衰期、alpha、...])

提供指数加权 (EW) 计算。

计算/描述性统计#

DataFrame.abs()

返回包含每个元素的绝对数值的 Series/DataFrame。

DataFrame.all([轴,bool_only,skipna])

返回是否所有元素都为 True(可能在轴上)。

DataFrame.any(*[,轴,bool_only,skipna])

返回任何元素是否为 True,可能在轴上。

DataFrame.clip([下、上、轴、就地])

在输入阈值处修剪值。

DataFrame.corr([方法, min_periods, ...])

计算列的成对相关性,不包括 NA/null 值。

DataFrame.corrwith(其他[,轴,下降,...])

计算成对相关性。

DataFrame.count([轴,仅数字])

计算每列或行的非 NA 单元格数量。

DataFrame.cov([min_periods, ddof, numeric_only])

计算列的成对协方差,不包括 NA/null 值。

DataFrame.cummax([轴,跳过])

返回 DataFrame 或 Series 轴上的累积最大值。

DataFrame.cummin([轴,跳过])

返回 DataFrame 或 Series 轴上的累积最小值。

DataFrame.cumprod([轴,跳过])

返回 DataFrame 或 Series 轴上的累积乘积。

DataFrame.cumsum([轴,跳过])

返回 DataFrame 或 Series 轴上的累积和。

DataFrame.describe([百分位数,包括,...])

生成描述性统计数据。

DataFrame.diff([周期、轴])

元素的第一个离散差分。

DataFrame.eval(expr, *[, 就地])

评估描述 DataFrame 列操作的字符串。

DataFrame.kurt([轴,skipna,仅限数字])

返回请求轴上的无偏峰度。

DataFrame.kurtosis([轴,skipna,仅限数字])

返回请求轴上的无偏峰度。

DataFrame.max([轴,skipna,仅限数字])

返回请求轴上的最大值。

DataFrame.mean([轴,skipna,仅限数字])

返回请求轴上的值的平均值。

DataFrame.median([轴,skipna,仅限数字])

返回请求轴上的值的中位数。

DataFrame.min([轴,skipna,仅限数字])

返回请求轴上的最小值。

DataFrame.mode([轴,仅限数字,dropna])

获取沿选定轴的每个元素的模式。

DataFrame.pct_change([句号, fill_method, ...])

当前元素与先前元素之间的分数变化。

DataFrame.prod([轴,skipna,仅限数字,...])

返回请求轴上的值的乘积。

DataFrame.product([轴、skipna、...])

返回请求轴上的值的乘积。

DataFrame.quantile([q, 轴, numeric_only, ...])

返回请求轴上给定分位数的值。

DataFrame.rank([轴、方法、仅限数字、...])

计算沿轴的数值数据排名(1 到 n)。

DataFrame.round([小数点])

将 DataFrame 舍入为可变的小数位数。

DataFrame.sem([轴、skipna、ddof、numeric_only])

返回请求轴上平均值的无偏标准误差。

DataFrame.skew([轴,skipna,仅限数字])

返回请求轴上的无偏斜。

DataFrame.sum([轴,skipna,仅限数字,...])

返回请求轴上的值的总和。

DataFrame.std([轴、skipna、ddof、numeric_only])

返回请求轴上的样本标准差。

DataFrame.var([轴、skipna、ddof、numeric_only])

返回请求轴上的无偏方差。

DataFrame.nunique([轴, dropna])

计算指定轴中不同元素的数量。

DataFrame.value_counts([子集、标准化、...])

返回一个包含数据框中每个不同行的频率的系列。

重新索引/选择/标签操作#

DataFrame.add_prefix(前缀[,轴])

带有字符串prefix 的前缀标签。

DataFrame.add_suffix(后缀[,轴])

后缀标签带有字符串后缀

DataFrame.align(其他[、连接、轴、级别、...])

使用指定的连接方法将两个对象在其轴上对齐。

DataFrame.at_time(时间[,asof,轴])

选择一天中特定时间的值(例如上午 9:30)。

DataFrame.between_time(开始时间,结束时间)

选择一天中特定时间之间的值(例如上午 9:00-9:30)。

DataFrame.drop([标签、轴、索引、...])

从行或列中删除指定的标签。

DataFrame.drop_duplicates([子集,保留,...])

返回删除了重复行的 DataFrame。

DataFrame.duplicated([子集,保留])

返回表示重复行的布尔系列。

DataFrame.equals(其他)

测试两个对象是否包含相同的元素。

DataFrame.filter([项目,如,正则表达式,轴])

根据指定的索引标签对数据帧行或列进行子集化。

DataFrame.first(抵消)

(已弃用)根据日期偏移选择时间序列数据的初始周期。

DataFrame.head([n])

返回前n行。

DataFrame.idxmax([轴,skipna,仅限数字])

返回请求轴上第一次出现最大值的索引。

DataFrame.idxmin([轴,skipna,仅限数字])

返回请求轴上第一次出现最小值的索引。

DataFrame.last(抵消)

(已弃用)根据日期偏移选择时间序列数据的最终周期。

DataFrame.reindex([标签、索引、列...])

使用可选的填充逻辑使 DataFrame 符合新索引。

DataFrame.reindex_like(其他[、方法、...])

返回一个与其他对象具有匹配索引的对象。

DataFrame.rename([映射器、索引、列...])

重命名列或索引标签。

DataFrame.rename_axis([映射器、索引、...])

设置索引或列的轴名称。

DataFrame.reset_index([等级、掉落、...])

重置索引或其级别。

DataFrame.sample([n、压裂、替换、...])

从对象轴返回项目的随机样本。

DataFrame.set_axis(标签,*[,轴,副本])

将所需索引分配给给定轴。

DataFrame.set_index(键、*[、删除、追加、...])

使用现有列设置 DataFrame 索引。

DataFrame.tail([n])

返回最后n行。

DataFrame.take(索引[,轴])

返回沿轴给定位置索引中的元素。

DataFrame.truncate([之前、之后、轴、复制])

在某个索引值之前和之后截断 Series 或 DataFrame。

缺失数据处理#

DataFrame.backfill(*[,轴,就地,...])

(已弃用)通过使用下一个有效观察来填充 NA/NaN 值来填补空白。

DataFrame.bfill(*[、轴、就地、限制、...])

通过使用下一个有效观察来填补空白来填充 NA/NaN 值。

DataFrame.dropna(*[、轴、如何、脱粒、...])

删除缺失值。

DataFrame.ffill(*[、轴、就地、限制、...])

通过将最后一个有效观测值传播到下一个有效观测值来填充 NA/NaN 值。

DataFrame.fillna([值、方法、轴、...])

使用指定的方法填充 NA/NaN 值。

DataFrame.interpolate([方法、轴、极限、...])

使用插值方法填充 NaN 值。

DataFrame.isna()

检测缺失值。

DataFrame.isnull()

DataFrame.isnull 是 DataFrame.isna 的别名。

DataFrame.notna()

检测现有(非缺失)值。

DataFrame.notnull()

DataFrame.notnull 是 DataFrame.notna 的别名。

DataFrame.pad(*[、轴、就地、限制、...])

(已弃用)通过将最后一个有效观测值传播到下一个有效观测值来填充 NA/NaN 值。

DataFrame.replace([要替换,值,...])

将to_replace中给出的值替换为value

重塑、排序、转置#

DataFrame.droplevel(水平[,轴])

返回系列/数据帧,并删除请求的索引/列级别。

DataFrame.pivot(*, 列[, 索引, 值])

返回按给定索引/列值组织的重塑的 DataFrame。

DataFrame.pivot_table([值、索引、...])

创建电子表格样式的数据透视表作为 DataFrame。

DataFrame.reorder_levels(顺序[,轴])

使用输入顺序重新排列索引级别。

DataFrame.sort_values(按,*[,轴,...])

按沿任一轴的值排序。

DataFrame.sort_index(*[、轴、水平、...])

按标签对对象进行排序(沿轴)。

DataFrame.nlargest(n,列[,保留])

返回按列降序排列的前n行。

DataFrame.nsmallest(n,列[,保留])

返回按升序排列的前n行。

DataFrame.swaplevel([i,j,轴])

交换 a 中的 i 和 j 级MultiIndex

DataFrame.stack([级别、下降、排序、...])

将指定级别从列堆叠到索引。

DataFrame.unstack([级别、填充值、排序])

透视索引标签的一个级别(必须是分层的)。

DataFrame.swapaxes(轴1,轴2[,复制])

(已弃用)适当地互换轴和交换值轴。

DataFrame.melt([id_vars, value_vars, ...])

将 DataFrame 从宽格式逆透视为长格式,可以选择保留标识符集。

DataFrame.explode(列[,忽略索引])

将类似列表的每个元素转换为一行,复制索引值。

DataFrame.squeeze([轴])

将一维轴对象压缩为标量。

DataFrame.to_xarray()

从 pandas 对象返回一个 xarray 对象。

DataFrame.T

DataFrame 的转置。

DataFrame.transpose(*参数[,复制])

转置索引和列。

组合/比较/连接/合并#

DataFrame.assign(**夸格斯)

将新列分配给 DataFrame。

DataFrame.compare(其他[,对齐轴,...])

与另一个 DataFrame 进行比较并显示差异。

DataFrame.join(其他[,关于,如何,lsuffix,...])

连接另一个 DataFrame 的列。

DataFrame.merge(右[,如何,上,左上,...])

使用数据库样式连接合并 DataFrame 或命名 Series 对象。

DataFrame.update(其他[、加入、覆盖、...])

使用另一个 DataFrame 中的非 NA 值进行适当修改。

标志#

标志指的是 pandas 对象的属性。数据集的属性(例如记录日期、访问的 URL 等)应存储在DataFrame.attrs.

Flags(obj, *, 允许重复标签)

适用于 pandas 对象的标志。

元数据#

DataFrame.attrs是用于存储此 DataFrame 的全局元数据的字典。

警告

DataFrame.attrs被认为是实验性的,可能会在没有警告的情况下发生变化。

DataFrame.attrs

该数据集的全局属性字典。

绘图#

DataFrame.plot既是可调用方法,又是表单特定绘图方法的命名空间属性DataFrame.plot.<kind>

DataFrame.plot([x, y, 种类, 斧头, ....])

DataFrame 绘图访问器和方法

DataFrame.plot.area([x, y, 堆叠])

绘制堆积面积图。

DataFrame.plot.bar([x,y])

垂直条形图。

DataFrame.plot.barh([x,y])

绘制水平条形图。

DataFrame.plot.box([经过])

绘制 DataFrame 列的箱线图。

DataFrame.plot.density([bw_方法,ind])

使用高斯核生成核密度估计图。

DataFrame.plot.hexbin(x, y[, C, ...])

生成六边形分箱图。

DataFrame.plot.hist([按,垃圾箱])

绘制 DataFrame 列的一个直方图。

DataFrame.plot.kde([bw_方法,ind])

使用高斯核生成核密度估计图。

DataFrame.plot.line([x,y])

将 Series 或 DataFrame 绘制为线条。

DataFrame.plot.pie(**夸格斯)

生成饼图。

DataFrame.plot.scatter(x, y[, s, c])

创建具有不同标记点大小和颜色的散点图。

DataFrame.boxplot([列、按、斧头、...])

根据 DataFrame 列绘制箱线图。

DataFrame.hist([列、按、网格、...])

制作 DataFrame 列的直方图。

稀疏访问器#

访问器下提供了稀疏数据类型特定的方法和属性 DataFrame.sparse

DataFrame.sparse.density

非稀疏点与总(密集)数据点的比率。

DataFrame.sparse.from_spmatrix(数据[, ...])

从 scipy 稀疏矩阵创建一个新的 DataFrame。

DataFrame.sparse.to_coo()

以稀疏 SciPy COO 矩阵的形式返回帧的内容。

DataFrame.sparse.to_dense()

将具有稀疏值的 DataFrame 转换为密集值。

序列化/IO/转换#

DataFrame.from_dict(数据[,东方,数据类型,...])

从类似数组的字典或字典构造 DataFrame。

DataFrame.from_records(数据[,索引,...])

将结构化或记录 ndarray 转换为 DataFrame。

DataFrame.to_orc([路径、引擎、索引、...])

将 DataFrame 写入 ORC 格式。

DataFrame.to_parquet([路径、引擎、...])

将 DataFrame 写入二进制 parquet 格式。

DataFrame.to_pickle(路径,*[,压缩,...])

将对象腌制(序列化)到文件。

DataFrame.to_csv([path_or_buf, sep, na_rep, ...])

将对象写入逗号分隔值 (csv) 文件。

DataFrame.to_hdf(path_or_buf, *, key[, ...])

使用 HDFStore 将包含的数据写入 HDF5 文件。

DataFrame.to_sql(名称、con、*[、模式、...])

将存储在 DataFrame 中的记录写入 SQL 数据库。

DataFrame.to_dict([定向、进入、索引])

将 DataFrame 转换为字典。

DataFrame.to_excel(excel_writer, *[, ...])

将对象写入 Excel 工作表。

DataFrame.to_json([path_or_buf, 东方, ...])

将对象转换为 JSON 字符串。

DataFrame.to_html([buf, 列, col_space, ...])

将 DataFrame 渲染为 HTML 表。

DataFrame.to_feather(路径,**kwargs)

将 DataFrame 写入二进制 Feather 格式。

DataFrame.to_latex([buf、列、标题、...])

将对象渲染为 LaTeX 表格、长表或嵌套表。

DataFrame.to_stata(路径,*[,转换日期,...])

将 DataFrame 对象导出为 Stata dta 格式。

DataFrame.to_gbq(目的地表,*[,...])

(已弃用)将 DataFrame 写入 Google BigQuery 表。

DataFrame.to_records([索引,column_dtypes,...])

将 DataFrame 转换为 NumPy 记录数组。

DataFrame.to_string([buf, 列, ...])

将 DataFrame 渲染为控制台友好的表格输出。

DataFrame.to_clipboard(*[, excel, 九月])

将对象复制到系统剪贴板。

DataFrame.to_markdown([buf, 模式, 索引, ...])

以 Markdown 友好的格式打印 DataFrame。

DataFrame.style

返回一个 Styler 对象。

DataFrame.__dataframe__([nan_as_null, ...])

返回实现交换协议的数据帧交换对象。