REXMLで子要素の文字列を取得する

RubyでXHTMLなどのXMLを処理していて、ある要素を文字列として取得したいと思ったときのサンプルです。

# coding: utf-8
require 'rexml/document'

doc = REXML::Document.new(DATA)
elem = doc.elements['//body/div']

# textは、その要素の子要素のうち、最初のテキスト要素を文字列として返します。
p elem.text
# => "\n  "


# textsは、その要素の子要素のうち、テキスト要素を文字列の配列として返します。
p elem.texts
# => ["\n  ", "\n  ", "\n"]


# to_sは、自身をXML文字列として返します。よくouterXMLと呼ばれる挙動です。
p elem.to_s
# => "<div>\n  <h1>テストページ</h1>\n  <div>\n    こんにちは<strong>世界</strong>。\n  </div>\n</div>"


# innerXMLが欲しいときは、このように子要素すべてのto_sを呼べばOKです。
p elem.map(&:to_s).join
# => "\n  <h1>テストページ</h1>\n  <div>\n    こんにちは<strong>世界</strong>。\n  </div>\n"


# XMLタグを取り除いた文字列だけを取得するときは、このようにXPathを使うのが簡単です。
class REXML::Element
  def inner_text
    REXML::XPath.match(self,'.//text()').join
  end
end
p elem.inner_text
# => "\n  テストページ\n  \n    こんにちは世界。\n  \n"


__END__
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<title>TEST PAGE</title>
</head>
<body>
<div>
  <h1>テストページ</h1>
  <div>
    こんにちは<strong>世界</strong>。
  </div>
</div>
</body>
</html>
Ruby on RailsによるWEBシステム開発、Android/iPhoneアプリ開発、電子書籍配信のことならお任せください この記事を書いた人と働こう! Ruby on Rails の開発なら実績豊富なBPS

この記事の著者

baba

ゆとりプログラマー。 高校時代から趣味でプログラミングを初め、そのままコードを書き続けて現在に至る。慶應義塾大学環境情報学部(SFC)卒業。BPS設立初期に在学中から参加している最古参メンバーの一人。得意分野はWeb全般、Ruby on Rails、Androidアプリケーションなど。最近はBlinkと格闘中。軽度の資格マニアで、情報処理技術者試験(高度10区分)などを保有。

babaの書いた記事

週刊Railsウォッチ

インフラ

Rubyスタイルガイドを読む

BigBinary記事より

ActiveSupport探訪シリーズ