代码之家 › 专栏 › 技术社区 › Spike Gronim

如何使用avro处理我无法查找的流?

avro boto hadoop python

Spike Gronim · 技术社区 · 14 年前

我使用avro 1.4.0通过python avro绑定和botoS3库从S3中读取一些数据。当我在文件上打开avro.datafile.datafilereader时,就像boto返回的对象一样,当它尝试查找()时,它会立即失败。目前,我正在通过将S3对象读取到临时文件中来解决这个问题。

我希望能够通过任何支持read()的python对象进行流式处理。有人能提供建议吗?

1 回复 | 直到 14 年前

pyfunc 14 年前

我对此不太清楚,这可能不是答案。我觉得

diter = datafile.DataFileReader(..)

返回迭代器,以便可以执行以下操作

for data in diter:
    ....

如果我错了,纠正我。

重温我的答案:

你说得对,datafile.datafile reader不能很好地处理搜索失败的读卡器。

它使用接受读卡器的avro.io.binarydecoder。

class BinaryDecoder(object):
    """Read leaf values."""
    def __init__(self, reader):
        """
    reader is a Python object on which we can call read, seek, and tell.
    """
    self._reader = reader

您所能做的就是创建自己的读卡器类,它确实提供了这些功能——读取、查找和告诉,但在内部使用botoS3库来读取数据。

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

5 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

5 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

5 月前

user29715306 · from_users=和chats=电视节目中的差异

5 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

5 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

5 月前

prayner · 更新嵌套字典包含列表中的项

6 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

6 月前

Dave · 如何在for循环中修改列表值

6 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

6 月前