pandas.read_orc #

熊猫。read_orc (路径, columns = None , dtype_backend = _NoDefault.no_default , filesystem = None , ** kwargs ) [来源] #

从文件路径加载一个 ORC 对象，返回一个 DataFrame。

参数：

path str、路径对象或类文件对象

字符串、路径对象（实现os.PathLike[str]）或实现二进制read()函数的类文件对象。该字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3 和 file。对于文件 URL，需要一个主机。本地文件可以是： file://localhost/path/to/table.orc.

列列表，默认无

如果不是“无”，则只会从文件中读取这些列。输出始终遵循文件的顺序，而不是列列表。这反映了的原始行为 pyarrow.orc.ORCFile.read()。

dtype_backend {'numpy_nullable', 'pyarrow'}, 默认 'numpy_nullable'

应用于结果的后端数据类型DataFrame （仍处于试验阶段）。行为如下：

"numpy_nullable"：返回 nullable-dtype-backed DataFrame （默认）。
"pyarrow"：返回 pyarrow 支持的可为空的ArrowDtype DataFrame。

2.0版本中的新增内容。

文件系统fsspec 或 pyarrow 文件系统，默认 None

读取 parquet 文件时使用的文件系统对象。

2.1.0 版本中的新增功能。

**夸格

任何额外的 kwargs 都会传递给 pyarrow。

返回：

数据框

笔记

在使用此功能之前，您应该阅读有关 ORC 的用户指南并安装可选的依赖项。

如果path是指向本地或远程文件的 URI 方案（例如“s3://”），pyarrow.fs文件系统将尝试读取该文件。您还可以将 pyarrow 或 fsspec 文件系统对象传递到文件系统关键字中以覆盖此行为。

例子

>>> result = pd.read_orc("example_pa.orc")