删除文件中的多个EOL

最后发布: 2013-07-09 07:06:35


问题

我有一个带有\\ n EOL字符的制表符分隔文件,看起来像这样:

User Name\tCode\tTrack\tColor\tNote\n\nUser Name2\tCode2\tTrack2\tColor2\tNote2\n

我正在使用此输入文件,并使用split('\\t')其重新格式化为嵌套列表。 该列表应如下所示:

[['User Name','Code','Track','Color','Note'],
 ['User Name2','Code2','Track2','Color2','Note2']]

生成文件的软件允许用户在填写“注释”字段时多次按下“输入”键。 它还允许用户按“输入”以创建任意数量的换行符,而根本不用在“注释”字段中输入任何可见的文本。

最后,用户可以在“注释”中间多次按下“输入”以创建多个段落,但是从操作的角度来看,这将是一种罕见的情况,如果这种情况复杂化,我愿意不予解决代码很多。 这种可能性的优先级确实非常低。

从上面的示例中可以看出,这些操作可以导致一系列“ \\ n \\ n ...”代码,该代码的长度可以在“ Note”字段之前,之后或代替。 或这样说,在将文件对象放入列表之前,需要进行以下替换:

\t\n\n... preceding "Note" must become \t
\n\n... trailing "note" must become \n
\n\n... in place of "note" must become \n
\n\n... in the middle of the text note must become a single whitespace, if easy to do

我尝试使用strip()和replace()方法没有成功。 在可以使用replace()方法之前,是否需要先将文件对象复制到其他对象中?

我有Awk的经验,但是我希望不需要正则表达式,因为我是Python的新手。 这是我需要改进以解决多个换行符的代码:

marker = [i.strip() for i in open('SomeFile.txt', 'r')]

marker_array = []
for i in marker:
    marker_array.append(i.split('\t'))

for i in marker_array:
    print i
python eol
回答

计算标签; 如果您假定注释字段在一行中从来没有4个选项卡,则可以收集注释,直到找到一行中确实有4个选项卡的行为止:

def collapse_newlines(s):
    # Collapse multiple consecutive newlines into one; removes trailing newlines
    return '\n'.join(filter(None, s.split('\n')))

def read_tabbed_file(filename):
    with open(filename) as f:
        row = None
        for line in f:
            if line.count('\t') < 4:   # Note continuation
                row[-1] += line
                continue

            if row is not None:
                row[-1] = collapse_newlines(row[-1])
                yield row

            row = line.split('\t')

        if row is not None:
            row[-1] = collapse_newlines(row[-1])
            yield row

直到确定没有注释在下一行继续有效地向前看时,上述生成器函数才会产生一行。

现在,使用read_tabbed_file()函数作为生成器并遍历结果:

for row in read_tabbed_file(yourfilename):
    # row is a list of elements

演示:

>>> open('/tmp/test.csv', 'w').write('User Name\tCode\tTrack\tColor\tNote\n\nUser Name2\tCode2\tTrack2\tColor2\tNote2\n')
>>> for row in read_tabbed_file('/tmp/test.csv'):
...     print row
... 
['User Name', 'Code', 'Track', 'Color', 'Note']
['User Name2', 'Code2', 'Track2', 'Color2', 'Note2']


回答

你遇到的第一个问题是in -它试图有所帮助,并在同一时间从文件中一行文本阅读。

>>> [i for i in open('SomeFile.txt', 'r') ]
['User Name\tCode\tTrack\tColor\tNote\n', '\n', 'User Name2\tCode2\tTrack2\tColor2\tNote2\n', '\n']

添加对.strip()的调用确实会删除每行中的空格,但这会使您留空行-不会将那些空元素从列表中删除。

>>> [i.strip() for i in open('SomeFile.txt', 'r') ]
['User Name\tCode\tTrack\tColor\tNote', '', 'User Name2\tCode2\tTrack2\tColor2\tNote2', '']

但是,您可以提供if子句列表理解,使之下降,只有有一个换行符行:

>>> [i.strip() for i in open('SomeFile.txt', 'r') if len(i) >1 ]
['User Name\tCode\tTrack\tColor\tNote', 'User Name2\tCode2\tTrack2\tColor2\tNote2']
>>>


回答

我认为,csv模块将为您提供帮助。

例如,看一下: 用Python解析CSV /制表符分隔的txt文件