開発

2013.05.29

REXMLで子要素の文字列を取得する

baba

シェア
ツイート
ブックマーク
LINE

RubyでXHTMLなどのXMLを処理していて、ある要素を文字列として取得したいと思ったときのサンプルです。

# coding: utf-8
require 'rexml/document'

doc = REXML::Document.new(DATA)
elem = doc.elements['//body/div']

# textは、その要素の子要素のうち、最初のテキスト要素を文字列として返します。
p elem.text
# => "\n  "


# textsは、その要素の子要素のうち、テキスト要素を文字列の配列として返します。
p elem.texts
# => ["\n  ", "\n  ", "\n"]


# to_sは、自身をXML文字列として返します。よくouterXMLと呼ばれる挙動です。
p elem.to_s
# => "<div>\n  <h1>テストページ</h1>\n  <div>\n    こんにちは<strong>世界</strong>。\n  </div>\n</div>"


# innerXMLが欲しいときは、このように子要素すべてのto_sを呼べばOKです。
p elem.map(&:to_s).join
# => "\n  <h1>テストページ</h1>\n  <div>\n    こんにちは<strong>世界</strong>。\n  </div>\n"


# XMLタグを取り除いた文字列だけを取得するときは、このようにXPathを使うのが簡単です。
class REXML::Element
  def inner_text
    REXML::XPath.match(self,'.//text()').join
  end
end
p elem.inner_text
# => "\n  テストページ\n  \n    こんにちは世界。\n  \n"


__END__
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<title>TEST PAGE</title>
</head>
<body>
<div>
  <h1>テストページ</h1>
  <div>
    こんにちは<strong>世界</strong>。
  </div>
</div>
</body>
</html>

シェア
ツイート
ブックマーク
LINE

高校時代から趣味でプログラミングを始め，そのままずっとコードを書いています。2010年SFC卒業，在学中にBPS入社。ゲームなどの趣味プログラミング，Webシステム，スマホアプリ，超縦書エンジン(C++/Chromium)，Webフロントエンド(TypeScript/React)などを主にやってきました。最近は自社製品(超シリーズ，くんシリーズ)の開発に関わるお仕事が中心です。管理業務もしますが，ゆとりプログラマーなので気楽にPCに向かっているのが好きです。情報処理技術者試験(16区分 + 情報処理安全確保支援士試験)，技術士(情報工学部門)，中小企業診断士、Ruby Programmer Gold，AWS Certified Solutions Architect - Professional，日商簿記2級，漢検準1級。情報処理技術者試験試験委員(2021-)。

REXMLで子要素の文字列を取得する

週刊Railsウォッチ（20191202前編）Rails 6のimplicit_order_columnはカスタマイズ可能、rubocop-rails 2.4.0リリース、Capistrano記事ほか

Kotlinの拡張機能で冗長な〇〇Utilsから脱却する

Rails: ビューでstrftimeを直書きするのはたぶんよくない（翻訳）

週刊Railsウォッチ（20191119後編）メソッド参照演算子が廃止、GitHub新機能続々、平成Ruby会議、GitHub OAuthバイパスほか

Rails 6の新しいデフォルト設定と安全な移行方法を詳しく解説（翻訳）

電子書籍でよく耳にする「EPUB」っていったい何者？なんて読むの？非エンジニアが簡単にまとめてみた

正規表現: 元号の漢数字「〇一二三四五六七八九十」にマッチさせる

[Windows] PowerShellで環境変数を取得する方法

Web開発環境をMacBook ProからWindows機に移行してみた話

WebエンジニアがPhotoshopで画像の文字を修正する方法

Rails: ViewComponent の call と erb_template と html.erb を適切に使い分ける（翻訳）

Rubyのbundlerを劇的に高速化するShopifyの取り組み（翻訳）

Ruby の'include?'より Rails の'in?`の方が読みやすい（翻訳）

Rails の try メソッドと Ruby のぼっち演算子 '&.' の違いを理解する（翻訳）

Claude Code Agent Teamsをうまく働かせるコツ（参考プロンプト付き）: 2026/03版

関連記事

CONTACT

REXMLで子要素の文字列を取得する

週刊Railsウォッチ（20191202前編）Rails 6のimplicit_order_columnはカスタマイズ可能、rubocop-rails 2.4.0リリース、Capistrano記事ほか

Kotlinの拡張機能で冗長な〇〇Utilsから脱却する

Rails: ビューでstrftimeを直書きするのはたぶんよくない（翻訳）

週刊Railsウォッチ（20191119後編）メソッド参照演算子が廃止、GitHub新機能続々、平成Ruby会議、GitHub OAuthバイパスほか

Rails 6の新しいデフォルト設定と安全な移行方法を詳しく解説（翻訳）

電子書籍でよく耳にする「EPUB」っていったい何者？なんて読むの？非エンジニアが簡単にまとめてみた

正規表現: 元号の漢数字「〇一二三四五六七八九十」にマッチさせる

[Windows] PowerShellで環境変数を取得する方法

Web開発環境をMacBook ProからWindows機に移行してみた話

WebエンジニアがPhotoshopで画像の文字を修正する方法

Rails: ViewComponent の call と erb_template と html.erb を適切に使い分ける（翻訳）

Rubyのbundlerを劇的に高速化するShopifyの取り組み（翻訳）

Ruby の'include?'より Rails の'in?`の方が読みやすい（翻訳）

Rails の try メソッドと Ruby のぼっち演算子 '&.' の違いを理解する（翻訳）

Claude Code Agent Teamsをうまく働かせるコツ（参考プロンプト付き）: 2026/03版

関連記事

W3C/IDPF の統合に関して

間違ったEPUBの正しい作り方(Linux, Mac, Cygwin編)

ベースファイルからの相対パスを、ドットの連続「..」を含めて解決する

CONTACT