代码之家 › 专栏 › 技术社区 › user181548

如何使用HTML::Parser重写HTML的文本部分而不更改<script>和<head>部分?

perl html

user181548 · 技术社区 · 15 年前

以下代码是的简短版本 an example 从 HTML::Parser

#!/usr/bin/perl -w
use strict;
my $code = shift || usage();
sub edit_print { local $_ = shift; tr/a-z/n-za-m/; print } 
use HTML::Parser 3.05;
my $p = HTML::Parser->new(unbroken_text => 1,
     default_h => [ sub { print @_; }, "text" ],
     text_h    => [ \&edit_print,      "text" ],
);
my $file = shift;
$p->parse_file($file)

这段代码工作得很好,但是它有一个缺点,那就是它也重写了里面的文本 <script> 而且 <head> 部分。我已经修改了上面的示例来做我想做的事情,但不幸的是还有一个bug,它重写了 <title> 我不想重写的标签。

是否有人知道如何编写类似于上述内容的东西,但不破坏JavaScript, <书名; 还是其他部分?如果需要,我很乐意使用HTML::Parser之外的其他模块。

2 回复 | 直到 15 年前

Greg Bacon 15 年前

向解析器中添加开始和结束处理程序,并让它们记录当前元素的祖先。当祖先包含 <head> 或 <script> ,禁用重写。

把你前面的事留着

#! /usr/bin/perl

use warnings;
use strict;

use HTML::Parser 3.05;

sub edit_print { local $_ = shift; tr/a-z/n-za-m/; print }

并使用以下Sub创建新的分析器:

sub create_parser {
  my @tags;
  my $start = sub {
    my($text,$tagname) = @_;
    push @tags => $tagname;
    print $text;
  };
  my $end = sub {
    my($text,$tagname) = @_;
    die "$0: expected </$tags[-1]>, got </$tagname>"
      unless $tagname eq $tags[-1];
    pop @tags;
    print $text;
  };
  my $edit_print = sub {
    if (grep /^(head|script)$/, @tags) { print @_ }
    else                               { edit_print @_ }
  };

  HTML::Parser->new(
    unbroken_text => 1,
    default_h     => [ sub { print @_ }, "text" ],
    text_h        => [ $edit_print,      "text" ],
    start_h       => [ $start,           "text,tagname" ],
    end_h         => [ $end,             "text,tagname" ],
  );
}

在Sub中创建它的原因是处理程序回调是 closures that share private state 在里面 @tags . 这个实现允许您实例化多个解析器,而不必担心它们会互相踩踏对方的数据。

my $p = create_parser;
$p->parse_file(\*DATA);

__DATA__
foo
<html>
<head>
<title>My Title</title>
<style type="text/css">
  /* don't change me */
</style>
</head>
<body>
<script type="text/javascript">
  // or me
</script>
<h1>My Document</h1>
<p>Yo.</p>
</body>
</html>

输出:

sbb
<html>
<head>
<title>My Title</title>
<style type="text/css">
  /* don't change me */
</style>
</head>
<body>
<script type="text/javascript">
  // or me
</script>
<h1>Ml Dbphzrag</h1>
<p>Yb.</p>
</body>
</html>

reinierpost 15 年前

看看你现有的代码,我不知道你被困在哪里:

添加一堆布尔值
```
my @do_edit = (0)
```
在edit_print中,如果$do_edit[0]为0,则不编辑
为某些元素名称添加start和end处理程序以移位/取消移位值

推荐文章

code-geek · Jquery根据单选按钮选择隐藏或显示文本字段

1 年前

Jamie · 在CSS链接的文件名中添加Jinja占位符

1 年前

ptownbro · 重叠分区标签,同时保持以下所有分区和内容就位

1 年前

Luke Frost IEng MIMechE · Bootstrap 5.3在Div中的项目位置没有如我所期望的那样显示

1 年前

Reegan · 使用Angular ngFor指令在html中渲染嵌套对象值

1 年前

wqyutv · 当找不到文件时,任何破坏错误的东西都不会出现,我该怎么解决这个问题?

1 年前

user29519291 · 为不同的变量创建一个带有可重用Click函数的简单菜单

1 年前

Gukkey · 在React中明确隐藏日期类型输入后,如果我单击父div,如何显示日期选择器?

1 年前

Lorenzo Bertolaccini · 在Angular项目中通过对话框后,在控制台中显示但在HTML中不显示的数据数组

1 年前

john Rizzo · 按钮背景颜色、悬停和活动状态存在问题

1 年前