pandas.read_orc #

熊猫。read_orc (路径, columns = None , dtype_backend = _NoDefault.no_default , filesystem = None , ** kwargs ) [来源] #

从文件路径加载一个 ORC 对象,返回一个 DataFrame。

参数
path str、路径对象或类文件对象

字符串、路径对象(实现os.PathLike[str])或实现二进制read()函数的类文件对象。该字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3 和 file。对于文件 URL,需要一个主机。本地文件可以是: file://localhost/path/to/table.orc.

列列表,默认无

如果不是“无”,则只会从文件中读取这些列。输出始终遵循文件的顺序,而不是列列表。这反映了 的原始行为 pyarrow.orc.ORCFile.read()

dtype_backend {'numpy_nullable', 'pyarrow'}, 默认 'numpy_nullable'

应用于结果的后端数据类型DataFrame (仍处于试验阶段)。行为如下:

  • "numpy_nullable":返回 nullable-dtype-backed DataFrame (默认)。

  • "pyarrow":返回 pyarrow 支持的可为空的ArrowDtype DataFrame。

2.0版本中的新增内容。

文件系统fsspec 或 pyarrow 文件系统,默认 None

读取 parquet 文件时使用的文件系统对象。

2.1.0 版本中的新增功能。

**夸格

任何额外的 kwargs 都会传递给 pyarrow。

返回
数据框

笔记

在使用此功能之前,您应该阅读有关 ORC 的用户指南安装可选的依赖项

如果path是指向本地或远程文件的 URI 方案(例如“s3://”),pyarrow.fs文件系统将尝试读取该文件。您还可以将 pyarrow 或 fsspec 文件系统对象传递到文件系统关键字中以覆盖此行为。

例子

>>> result = pd.read_orc("example_pa.orc")