Ruby / Rails関連

2021.10.14

Ruby正規表現の後読みでは長さ不定の量指定子は原則使えない

hachi8833

シェア
ツイート
ブックマーク
LINE

更新情報

2017/12/05: 初版公開
2021/10/14: 更新

こんにちは、hachi8833です。「ライフ」カテゴリの記事でアドベント書きたかったのですが、こちらの小ネタにします。

正規表現の先読みと後読みについては「正規表現の先読み・後読み（look ahead、look behind）を活用しよう」をご覧ください。

以下は基本的にRubyの正規表現（onigmo）を使います。他の正規表現ライブラリではこのとおりにならない可能性があります。

Rubyの正規表現の後読みは長さを不定にできない

以下の文字列が対象です。

word work wording working interesting partitioning subscribe subscriber subscription

量指定子の場合

たとえば、ingで終わる1文字以上の長さの英単語のingだけにマッチさせたいと思って次の正規表現を書いたとします。+は1文字以上のマッチを表します。

(?<=[\p{L}]+)ing

しかしやってみると、Invalid pattern in look-behind.と表示されます。なお、+を最小一致の+?に変えてもだめでした。

Rubular

代替`|`の場合（更新2021/10/14）

任意の長さの代わりに、代替|を用いて長さの異なる特定の語のリストを後読みで使うとどうなるでしょうか。

(?<=word|work|interest|partition)ing

代替|のリストは通ります。よかった！

（Rubular）

しかし以下のように同じ代替|のリストをグループ()で囲むとどうなるでしょう。

(?<=(word|work|interest|partition))ing

代替|をグループ()で囲むと残念ながらInvalid pattern in look-behind.になりました。

Rubular

ただし以下のようにリスト内の各要素の長さをすべて同じにすれば、代替|をグループ()で囲んでも通ります。

(?<=(word|work|weed))ing

Rubular

なぜ後読みで量指定子が使えないのか

後読みは本体がマッチした後で文字どおり遡ってチェックされるはずなので、量指定子（quantifier: 量化子とも呼ばれます）の長さが不定だと効率が非常に落ちることは想像がつきます。Onigmoの仕様まではチェックしていませんが、おそらくそうした理由で長さ不定の後読みをサポートしていないのではないかと推測しています。

ちょっとだけPerlでも試してみましたが、こちらもnot implementedだそうです。

$ perl -e '"word work wording working interesting partitioning subscribe subscriber subscription" =~ /(?<=[\\p{L}]+)ing/;'
Variable length lookbehind not implemented in regex m/(?<=[\\p{L}]+)ing/ at -e line 1.

後読みに使える量指定子

Rubyの場合、少なくとも次のように~~{,10}~~{4}のように長さを固定した量指定子では後読みが機能します。これがなかったらわたし的につらいです。

(?<=\b[\p{L}]{4})ing

Rubular

追記（2018/10/25）: 少なくとも、+、*、?、{N,M}、{N,}のように長さ不定の量指定子はRubularのRuby 2.1.5ではだめでした。

他にも使えるものがあるかもしれませんが、いずれにしろ量指定子を不用意に使うと効率が落ちるので、あまりやんちゃしないようにしましょう。

先読みでは長さを不定にできる

Ruby正規表現の先読み（look ahead）では、次のように長さ不定の量指定子を使えます。

work(?=[\p{L}]+)

Rubular

おまけ: .NET Frameworkだとできる

遠い昔の記憶では、.NET Frameworkでは後読みで長さ不定の量指定子を使えたはずだったので、チェックしてみました。当時はこれが当たり前だと思っていたので、他のライブラリでできないことを知ったときはショックでした。

たった今見つけたregexstorm.netというサイトで.NET Frameworkの正規表現をチェックしたところ、後読みであっさり長さ不定の量指定子を使えました。Mac環境だとおいそれと.NET Frameworkの正規表現を確認できないので、このサイトは助かります。

http://regexstorm.net/tester

また、.NET Frameworkの正規表現ライブラリをGo言語に移植したdlclark/regexp2という私の大好きなパッケージで試したところ、こちらでも長さ不定の量指定子を使えました。

package main

import (
    "fmt"

    "github.com/dlclark/regexp2"
)

func main() {
    re, err := regexp2.Compile("(?<=[\\p{L}]+)ing", 0)
    if err != nil {
        fmt.Println("err compile: ", err)
    }

    ma, err := re.FindStringMatch("word work wording working interesting partitioning subscribe subscriber subscription")
    if err != nil {
        fmt.Println("err match: ", err)
    }

    fmt.Println(ma)
}

$ go run regexp2.go
ing

効率を犠牲にしても後読みで長さ不定の量指定子をサポートしているのか、それとも実装が凄いのかは調べていませんが、私の中ではやはり.NET Frameworkの正規表現が今のところ最強です。

フィードバック

ちょっと前の記事だけど、「後読みに使える量指定子」のパターンは、{,10}が文字クラスの中にあるし、余分なスペースがあるので量指定子になっていないと思います。 /cc @hachi8833 https://t.co/EWbNBVeOOZ

— Akinori Musha (@knu) October 25, 2018

ご指摘ありがとうございます！修正しました。

正規表現: 文字クラス [ ] 内でエスケープしなくてもよい記号

正規表現の先読み・後読み（look ahead、look behind）を活用しよう

Ruby 2.4.1新機能: Onigmo正規表現の非包含演算子(?~ )をチェック

シェア
ツイート
ブックマーク
LINE

X: @hachi8833 GitHub: @hachi8833 コボラー、ITコンサル、ローカライズ業界、Rails開発を経てTechRachoの編集・記事作成を担当。これまでにRuby on Rails チュートリアル第2版のコンテンツ監修、Railsガイドのコンテンツ作成を担当。かと思うと、正規表現の粋を尽くした日本語エラーチェックサービス enno.jpを運営。 Claude Codeに夢中になりすぎないための方法を模索中。 ブログ:note.com/hachi8833、 Amazonウィッシュリスト: https://bit.ly/32aAmiI

Ruby正規表現の後読みでは長さ不定の量指定子は原則使えない

Rubyの正規表現の後読みは長さを不定にできない

量指定子の場合

代替`|`の場合（更新2021/10/14）

なぜ後読みで量指定子が使えないのか

後読みに使える量指定子

先読みでは長さを不定にできる

おまけ: .NET Frameworkだとできる

フィードバック

関連記事

RubyGems 4.0.0とBundler 4.0.0がリリースされました

Bundler 4.0.0とRubyGems 4.0.0にアップグレードするときの注意点

productionやdevelopment、stagingという言葉の使い分けについて

Rails: パーシャルの意外に知られていない賢い機能（翻訳）

Ruby: frozen_string_literalの歴史と現状、未来を考察する（翻訳）

CSSだけで星を"半押し"可能な10段階レーティング機能を実装する（翻訳）

M1/M3 MacでRuby 2.4〜4.0をrbenvでビルドする最小限のセットアップを全部調べた

ビヨンドシリーズ第4弾「ビヨンド通知」を本日リリースしました！

Ruby 4.0.0がリリースされました

BPS株式会社 2025年度上半期の状況

関連記事

CONTACT

Ruby正規表現の後読みでは長さ不定の量指定子は原則使えない

Rubyの正規表現の後読みは長さを不定にできない

量指定子の場合

代替|の場合（更新2021/10/14）

なぜ後読みで量指定子が使えないのか

後読みに使える量指定子

先読みでは長さを不定にできる

おまけ: .NET Frameworkだとできる

フィードバック

関連記事

RubyGems 4.0.0とBundler 4.0.0がリリースされました

Bundler 4.0.0とRubyGems 4.0.0にアップグレードするときの注意点

productionやdevelopment、stagingという言葉の使い分けについて

Rails: パーシャルの意外に知られていない賢い機能（翻訳）

Ruby: frozen_string_literalの歴史と現状、未来を考察する（翻訳）

CSSだけで星を"半押し"可能な10段階レーティング機能を実装する（翻訳）

M1/M3 MacでRuby 2.4〜4.0をrbenvでビルドする最小限のセットアップを全部調べた

ビヨンドシリーズ第4弾「ビヨンド通知」を本日リリースしました！

Ruby 4.0.0がリリースされました

BPS株式会社 2025年度上半期の状況

関連記事

はじめての正規表現とベストプラクティス3: 冒頭/末尾にマッチするメタ文字とセキュリティ、文字セットの否定と範囲

Windows: アプリ終了時テストをPowerShellスクリプトで楽に行う

正規表現の先読み・後読み（look ahead、look behind）を活用しよう

CONTACT

代替`|`の場合（更新2021/10/14）