ハイパーパラメータ調整：ファインチューニング新章（２）

前回の投稿（ResNet50からEfficientNetV2Lへ！ファインチューニングの新章）では、ベースモデルをEfficientNetV2Lに変更するという大きな方針転換に関して解説した上で、直近の課題はハイパーパラメータ（margin, pair_loss_weight, dropout_rate など）の調整であることに触れました。

今回は、その結果に関して書いてみます。

Fβスコア

ハイパーパラメータの調整に際しては、各設定での学習結果であるモデルの精度を評価する指標が必要になります。
前回の投稿においては、この指標としてF1スコアを採用するとの方針を示しましたが、モデルの用途がラベル画像からワインを特定することである点を考えると、適合率の方をより重視すべきではないかとの疑念もありました。

この点に関して、改めてGemini先生に相談したところ、以下のような回答をいただきました。

ラベル画像からワインの商品識別という目的において、適合率（Precision）を重視するという考え方は、非常に合理的かつ適切です。

これは、システムが提供する「信頼性」と、ユーザーの「許容されるリスク」を考慮した、実用的な判断と言えます。

再現率が低い（FNが多い）場合、「どのワインとも識別できませんでした」という結果になります。これはユーザーが望む結果ではありませんが、再撮影や別の角度でのリトライで解決できるため、致命的なエラーではありません。

適合率が低い（FPが多い）場合、システムがAというワインを「これはBというワインです」と間違って識別してしまい、ユーザーは誤った情報を得ます。ユーザーがその誤りに気づかなければリカバリが困難であり、システムへの信頼が失墜します。これは、識別の失敗（リトライで解決可能）よりも重大なサービス上の問題です。

この観点から、「確実性の高い結果を提供すること（高適合率）」が、「可能な限り多くの結果を提供すること（高再現率）」よりもビジネス価値が高いという判断は妥当です。

適合率を重視するという方針を精度の数値化に反映させるには、F1スコアではなく、以下の適合率を強調した指標を使用します。

ということで、紹介されたのが「Fβスコア」でした。

Fβスコアは、適合率と再現率のどちらに重み（β）を置くかを調整できる指標です。
具体的な計算式は以下になります。

Fβスコア = (1 + β^2) * (適合率 * 再現率) / ((β^2 * 適合率) + 再現率)

βを1.0未満にすれば適合率が重視され、1.0以上にすれば再現率が重視されることになります。
β=1の場合がF1スコアです。

Gemini先生お勧めのβは0.5（β^2 = 0.25）でしたので、まずは本値を採用してFβスコアを算出し、それによってハイパーパラメータの調整を行なってみます。

トリプレットの取得方法変更

ハイパーパラメータの調整というテーマからは若干外れるのですが、トリプレットの取得方法に関しても見直しています。

今までの処理内容は以下の通り。

import random
import itertools

def get_triplet_combinations(anchor_info, max_combinations=15):
    anchor_path = anchor_info[0]
    positives = anchor_info[1]
    negatives = anchor_info[2]
    
    # 可能な組み合わせをすべて生成
    all_combinations = []
    for positive_path in positives:
        for negative_path in negatives:
            all_combinations.append((anchor_path, positive_path, negative_path))
    
    random.shuffle(all_combinations)
    
    # max_combinationsの上限で組み合わせを選択
    selected_combinations = all_combinations[:max_combinations]
    
    for combination in selected_combinations:
        yield combination

def triplet_generator(triplet_data, max_combinations=15):
    # エポックごとにデータをシャッフルして多様な組み合わせを生成
    random.shuffle(triplet_data)
    
    for anchor_info in triplet_data:
        # 各アンカー情報から組み合わせジェネレータを取得
        for triplet in get_triplet_combinations(anchor_info, max_combinations):
            yield triplet

前回の投稿でも触れましたが、学習効率を考慮して、1つのアンカーを含むトリプレット数に関して、所定の数を超えないように制限しています。
それ上限を指定する引数がmax_combinationsです。

普段はmax_combinations=5として学習を実施していますが、ある程度ハイパーパラメータの値が確定してきた段階で、より多くのデータを使用して学習を行なうよう、デフォルト値（max_combinations=15）で学習を行いました。
その結果、同じハイパーパラメータを指定しながら、なぜかmax_combinationsを大きくした方がF1スコア・Fβスコアともに悪くなるという傾向が見受けられました。

上記観点で、改めて既存の処理内容を見てみると、triplet_dataに含まれるアンカー単位での学習順序や、あるアンカーを含むトリプレット（最大max_combinations個）に含まれるポジティブ・ネガティブの組み合わせに関してはシャッフルが適用されますが、あるアンカーを含むトリプレット全体としては連続して学習されるようになっています。
バッチサイズ=32で学習しているため、max_combinations=15とした場合、1つのバッチ内の約半分が同じアンカーに関する学習になってしまう可能性がある訳です。

上記より、現在の実装ではバッチ内の多様性が十分に確保されておらず、学習が偏ってしまうことが精度に影響しているのではないかと推測したのですが、この点に関してはCursor先生にも賛同いただきましたので、改めて以下のように改修していただきました。

import random
import itertools

def get_triplet_combinations(anchor_info, max_combinations=15):
    anchor_path = anchor_info[0]
    positives = anchor_info[1]
    negatives = anchor_info[2]
    
    # 可能な組み合わせをすべて生成
    all_combinations = []
    for positive_path in positives:
        for negative_path in negatives:
            all_combinations.append((anchor_path, positive_path, negative_path))
    
    random.shuffle(all_combinations)
    
    # max_combinationsの上限で組み合わせを選択
    selected_combinations = all_combinations[:max_combinations]
    
    for combination in selected_combinations:
        yield combination

def triplet_generator(triplet_data, max_combinations=15):
    # エポックごとにデータをシャッフルして多様な組み合わせを生成
    random.shuffle(triplet_data)
    
    # すべてのトリプレットを一度生成してリストに格納
    all_triplets = []
    for anchor_info in triplet_data:
        # 各アンカー情報から組み合わせを取得
        for triplet in get_triplet_combinations(anchor_info, max_combinations):
            all_triplets.append(triplet)
    
    # すべてのトリプレットをシャッフルして、異なるアンカーのトリプレットが混ざるようにする
    # これにより、バッチ内の多様性が向上し、学習の偏りを防ぐ
    random.shuffle(all_triplets)
    
    # シャッフルされた順序でトリプレットをyield
    for triplet in all_triplets:
        yield triplet

改修後の処理では、すべてのトリプレットを生成した後にシャッフルしているため、1つのアンカーに関連するトリプレットも分散して学習されることになります。

上記改修により、より適切にハイパーパラメータの調整が実施できるようになることが期待されます。

調整結果

最新の結果を示す前に、EfficientNetV2Lオリジナルおよび前回紹介した試験的に実施した学習結果のモデルに関して、F1スコアに加えて、Fβスコアが最大となる状況を整理しておきます。

EfficientNetV2Lオリジナル

閾値	ポジティブ	ネガティブ	適合率	再現率	F1スコア	Fβスコア
0.10	1118	1846	0.3772	0.4991	0.4297	0.3966
0.08	868	1192	0.4214	0.3875	0.4037	0.4141

前回の学習済モデル

閾値	ポジティブ	ネガティブ	適合率	再現率	F1スコア	Fβスコア
0.15	2084	606	0.7747	0.9304	0.8454	0.8015
0.09	1628	202	0.8896	0.7268	0.8000	0.8515

いずれも、上がF1スコア、下がFβスコアが最大となった状況です。

学習済モデルに関しては、Fβスコア基準（閾値=0.09）で識別した場合、もう少しで適合率が0.9に届きそうです。
その分、再現率は7割程度になってしまいますが。

上記に対して、ハイパーパラメータの調整を行なった中で最良の結果となったケースに関して以下に示します。

まとめ

前回の投稿以降、ハイパーパラメータの調整を行なってきました。
その成果として、良好な結果につながる値が大まかに絞り込めてきましたし、その値を使って学習されたモデルのFβスコア（＋適合率）も格段に向上しました。

ただ、今回の精度向上の最大の要因は、実はトリプレットの取得方法変更の方にあるようです。
同じハイパーパラメータを指定しているにも関わらず、変更前はFβスコア平均＝0.8555（最大＝0.8719、最小＝0.8205）であったのに対し、変更後は平均＝0.9519（最大＝0.9571、最小＝0.9365）になっていますので。

つまり、「ハイパーパラメータを調整して精度を上げる」という趣旨で作業をしていたのが、「ハイパーパラメータも調整したし、精度も上がった」という、想定していたものとは若干違った形になってしまいましたが、目的自体は達成できたので結果オーライと言うことにします。

なお、大した根拠なく目標にしてきた適合率0.9越えですが、改めて考えてみると適合率＝0.9847でも100回に1〜2回程度の誤認が発生することを意味する訳で、ソフトウェアの精度としては手放しに喜べる状況でもないような気がしてきました。
引き続きモデルの精度向上は模索していきたいですが、もっと別のアプローチでも誤認を減らす方法を考えていきたいと思います。

閾値	ポジティブ	ネガティブ	適合率	再現率	F1スコア	Fβスコア
0.19	2106	174	0.9237	0.9402	0.9319	0.9269
0.12	1928	30	0.9847	0.8607	0.9185	0.9571
0.03	1464	0	1.0000	0.6536	0.7905	0.9042

アンカー	ネガティブ	距離
		0.07183635234826824
		0.0759878207484378
		0.10494493187130305
		0.03592628454721125

Fβスコア

トリプレットの取得方法変更

調整結果

EfficientNetV2Lオリジナル

前回の学習済モデル

最新学習済モデル

最新学習済モデルのハードネガティブ

まとめ

使ってよかったおやじの独り言 Part1

NFCとSAKUTTO lpでデジタル名刺

MacBookとThunderboltとデュアルデ...

Aiで資料作成したあとどうする？

バイブコーディングでEC-CUBEのプラグイン開発...

Related articles

ResNet50からEfficientNetV2L...

使ってよかったおやじの独り言 Part1

NFCとSAKUTTO lpでデジタル名刺

MacBookとThunderboltとデュアルデ...