開発

2018.11.16

Rubyの正規表現は`&&`のintersectで文字セットの「差分」を取れる

hachi8833

シェア
ツイート
ブックマーク
LINE

正規表現記事を書いていて発見したregular-expressions.info↓という神サイトをちびちび読んでいました。

regular-expressions.infoより

すると、「Ruby（つまりOnigmo）では以下のように&&という特殊なメタキャラクタを使うと、文字セットのintersect演算、つまり共通集合を取れる」という記述が目に入り、思わず息を呑みました。

[class&&[intersect]]

文字セットの演算機能といえば、.NET Frameworkの[class-[class]]という記法で文字セットの差分を取る機能ぐらいしかないと思っていたのが、まさかRubyにもあこがれの文字セット演算があるなんて。目を疑いました。早速試しました。

今さらですが、正規表現の文字セットと文字クラスは同じものを指します。

1. 文字セットのintersect

急いで作ったので実用的ではありませんが。[\p{Han}]はUnicodeのあらゆる漢字を表す文字セット、[\p{N}]はUnicodeのあらゆる数値リテラルを表す文字セットです。両方の共通集合を取ってみると見事取れました。

例: /[\p{Han}&&\p{N}]/というパターン（Rubular）

急いだので、つい\p{N}を文字セット[]に入れるのを忘れていましたが、確かに両者に共通する漢数字の「〇」（ゼロ）だけにマッチしています。もちろん[]に入れても結果は同じでした（Rubular）。

2. 文字セットのintersectで文字セットの「差分」を取る

文字セット[]とくれば、否定の文字セット[^]が使えるじゃないですか。同サイトからのいただき情報ですが、これを使えば長年欲しかった文字セットの差分をRubyの正規表現だけで表せるのです。

例: /[\p{Han}&&[^〇一二三四五六七八九十百千万億兆京]]/（Rubular）

取れました(´；ω；｀)ﾌﾞﾜｯ。

超巨大な文字セットである[\p{Han}]から、漢数字「〇一二三四五六七八九十百千万億兆京」のみを除いた文字セットを簡潔に作り出せました。

同じ要領で、今後は巨大な文字セットからいくつかの文字を除外するRuby正規表現をラクラク作れることになります。

しかし

しかし私の場合に限って、この[class&&[intersect]]という超強力な記法を使うにはまだためらいがあります。というのも、Ruby以外ではほとんど使えない方言だからです。

私は複数の正規表現ライブラリにまたがって同じ正規表現を使いたい欲張りさんなので、これを使ったばかりに他のライブラリで動かなくなったら便所で泣いてしまいそうです。

intersectを取れない正規表現ライブラリをコードから使う方は、当分の間コード側で工夫するしかなさそうです。

おたより発掘

Perlもできりゅhttps://t.co/Q0pkU681Af https://t.co/L4KTCnQ4zK

— Chihiro Fukazawa (@query1000) November 16, 2018

情報ありがとうございます！🙇

JavaScript: Chrome V8なら正規表現で後読み（look behind）がフル機能で使える

正規表現: 文字クラス [ ] 内でエスケープしなくてもよい記号

シェア
ツイート
ブックマーク
LINE

X: @hachi8833 GitHub: @hachi8833 コボラー、ITコンサル、ローカライズ業界、Rails開発を経てTechRachoの編集・記事作成を担当。これまでにRuby on Rails チュートリアル第2版のコンテンツ監修、Railsガイドのコンテンツ作成を担当。かと思うと、正規表現の粋を尽くした日本語エラーチェックサービス enno.jpを運営。 Claude Codeに夢中になりすぎないための方法を模索中。 ブログ:note.com/hachi8833、 Amazonウィッシュリスト: https://bit.ly/32aAmiI

Rubyの正規表現は`&&`のintersectで文字セットの「差分」を取れる

1. 文字セットのintersect

2. 文字セットのintersectで文字セットの「差分」を取る

しかし

おたより発掘

関連記事

週刊Railsウォッチ（20191202前編）Rails 6のimplicit_order_columnはカスタマイズ可能、rubocop-rails 2.4.0リリース、Capistrano記事ほか

Kotlinの拡張機能で冗長な〇〇Utilsから脱却する

Rails: ビューでstrftimeを直書きするのはたぶんよくない（翻訳）

週刊Railsウォッチ（20191119後編）メソッド参照演算子が廃止、GitHub新機能続々、平成Ruby会議、GitHub OAuthバイパスほか

Rails 6の新しいデフォルト設定と安全な移行方法を詳しく解説（翻訳）

電子書籍でよく耳にする「EPUB」っていったい何者？なんて読むの？非エンジニアが簡単にまとめてみた

正規表現: 元号の漢数字「〇一二三四五六七八九十」にマッチさせる

[Windows] PowerShellで環境変数を取得する方法

python-oscを使ってみる：前編

Web開発環境をMacBook ProからWindows機に移行してみた話

Rails: ViewComponent の call と erb_template と html.erb を適切に使い分ける（翻訳）

Rubyのbundlerを劇的に高速化するShopifyの取り組み（翻訳）

Ruby の'include?'より Rails の'in?`の方が読みやすい（翻訳）

Rails の try メソッドと Ruby のぼっち演算子 '&.' の違いを理解する（翻訳）

Claude Code Agent Teamsをうまく働かせるコツ（参考プロンプト付き）: 2026/03版

関連記事

CONTACT

Rubyの正規表現は`&&`のintersectで文字セットの「差分」を取れる

1. 文字セットのintersect

2. 文字セットのintersectで文字セットの「差分」を取る

しかし

おたより発掘

関連記事

週刊Railsウォッチ（20191202前編）Rails 6のimplicit_order_columnはカスタマイズ可能、rubocop-rails 2.4.0リリース、Capistrano記事ほか

Kotlinの拡張機能で冗長な〇〇Utilsから脱却する

Rails: ビューでstrftimeを直書きするのはたぶんよくない（翻訳）

週刊Railsウォッチ（20191119後編）メソッド参照演算子が廃止、GitHub新機能続々、平成Ruby会議、GitHub OAuthバイパスほか

Rails 6の新しいデフォルト設定と安全な移行方法を詳しく解説（翻訳）

電子書籍でよく耳にする「EPUB」っていったい何者？なんて読むの？非エンジニアが簡単にまとめてみた

正規表現: 元号の漢数字「〇一二三四五六七八九十」にマッチさせる

[Windows] PowerShellで環境変数を取得する方法

python-oscを使ってみる：前編

Web開発環境をMacBook ProからWindows機に移行してみた話

Rails: ViewComponent の call と erb_template と html.erb を適切に使い分ける（翻訳）

Rubyのbundlerを劇的に高速化するShopifyの取り組み（翻訳）

Ruby の'include?'より Rails の'in?`の方が読みやすい（翻訳）

Rails の try メソッドと Ruby のぼっち演算子 '&.' の違いを理解する（翻訳）

Claude Code Agent Teamsをうまく働かせるコツ（参考プロンプト付き）: 2026/03版

関連記事

正規表現: 文字クラス [ ] 内でエスケープしなくてもよい記号

週刊Railsウォッチ（20170721）ActiveStorageは5.2で正式導入、Onigmoの脆弱性が修正、この夏読みたい名作Ruby本ほか

【続き】Ruby 2.4.1のOnigmo非包含演算子をあえて単独で`#match?`で使ってみた

CONTACT