核心概念
本稿では、複雑な果樹園環境下における遮蔽・非遮蔽の未熟な緑色果実のインスタンスセグメンテーションにおいて、YOLO11がYOLOv8よりも高い精度を実現する一方で、YOLOv8は処理速度の点で優れていることを示しています。
要約
YOLO11とYOLOv8を用いた未熟な緑色果実のインスタンスセグメンテーションの比較分析:技術ノート
研究概要
本稿は、市販の果樹園環境における未熟な緑色果実のインスタンスセグメンテーションにおけるYOLO11とYOLOv8の性能を比較した技術ノートです。
データ収集と準備
- アメリカ合衆国ワシントン州プロッサーにある「Scifresh」種のリンゴが植えられた商業用果樹園でデータ収集を実施。
- Microsoft Azure Kinect DKセンサーを搭載したロボット画像プラットフォームを使用し、未熟な果実のRGB画像を収集。
- 合計991枚の画像を収集し、葉や他の果実で隠れているかどうかによって、未熟な果実を「遮蔽リンゴ」または「非遮蔽リンゴ」として手動でアノテーション。
- アノテーションされたデータセットは、YOLO11およびYOLOv8アーキテクチャとの互換性のためにフォーマットされ、トレーニング、テスト、検証セットに8:1:1の比率で分割。
YOLO11とYOLOv8のトレーニング
- YOLO11-segとYOLOv8-segの両方のモデルで同一のトレーニングプロトコルを採用。
- データセットは、様々な遮蔽状態の未熟な緑色果実を手動でアノテーションした画像で構成。
- 各モデルは、未熟な緑色果実のセグメンテーションという特殊なタスクの収束を加速するために、事前にトレーニングされた重みを使用。
- 両方のモデルのトレーニングは、300エポックにわたって実施。
- 再現性のために、決定論的なトレーニング(deterministic: true)と固定のランダムシード(seed: 0)を採用。
- RGB画像入力は、640x640ピクセルの解像度(imgsz: 640)に標準化。
- バッチサイズは8(batch: 8)に設定。
- 水平方向の反転(fliplr: 0.5)と最小限の回転(degrees: 0.0)の両方を使用。
- Intersection Over Union(IOU)のしきい値は0.7(iou: 0.7)に設定。
- 学習率(lr0: 0.01)と重み減衰(weight decay: 0.0005)を小さく設定することで、モデルの複雑さと過剰適合を厳密に制御。
パフォーマンス評価
- YOLO11とYOLOv8の両方のモデルを、Mean Intersection over Union(MIoU)、Average Precision(AP)、Mean Average Precision(mAP)、Mean Average Recall(mAR)、F1スコアなどの包括的な指標を使用して評価。
- これらの指標は、モデルが遮蔽された果実と遮蔽されていない果実の両方をどれだけ正確に検出してセグメント化できるかを評価するために使用。
結果と考察
- YOLO11m-segは、"All"クラスで0.876、非遮蔽果実で0.908という、ボックス検出において最高のmAP@50スコアを達成。
- マスクセグメンテーションでは、YOLO11m-segは、"All"で0.860、非遮蔽果実で0.909という最高のmAP@50スコアを達成。
- YOLO11x-segは、最も多くのリソースを必要とし、6,200万個のパラメータと318.5GFLOPsを必要とする構成で、遮蔽・非遮蔽果実の高精度セグメンテーションに適している。
- YOLOv8l-segは5.103時間と最も長いトレーニング時間を記録したのに対し、YOLOv8nは3.3ミリ秒と最も速い画像処理速度を示し、リアルタイムアプリケーションに適している。
結論
本稿では、YOLO11とYOLOv8の最新バージョンとその構成を、商業用果樹園環境における未熟な緑色果実のインスタンスセグメンテーションにおける性能について評価した。YOLO11は精度において優れていることが証明されたが、YOLOv8は処理速度において優れていた。この研究は、農業環境における正確かつ迅速な検出およびセグメンテーションタスクに最適なモデル構成を選択するための貴重な指針を提供する。
今後の展望
- 今後の研究では、YOLOv12、YOLOv13、YOLOv14、YOLOv15などの新しいバージョンを評価し、複雑な農業環境における性能向上を評価する必要がある。
- ノイズ耐性の向上、さまざまな種類の果物への汎化能力の向上、さまざまな照明条件に対するロバスト性の強化など、高度な機能を導入する必要がある。
- ニューラルアーキテクチャ検索(NAS)や転移学習などの最先端の機械学習技術を統合する必要がある。
- 教師なし学習や半教師あり学習のパラダイムの進歩により、ラベル付けされたデータが限られている場合でも、これらのモデルがうまく機能するようになる可能性がある。
統計
YOLO11m-segは、「All」クラスでボックス検出のmAP@50スコアが0.876、非遮蔽果実で0.908と、最も高いスコアを記録しました。
マスクセグメンテーションでは、YOLO11m-segが「All」で0.860、非遮蔽果実で0.909と、最高のmAP@50スコアを記録しました。
YOLO11x-segは、6,200万個のパラメータと318.5GFLOPsを必要とする構成で、最も多くのリソースを使用しました。
YOLOv8l-segは、トレーニング時間が5.103時間と最も長くなりました。
YOLOv8nは、画像処理速度が3.3ミリ秒と最も速かったです。
引用
"YOLO11n-seg achieved the highest mask precision across all categories with a notable score of 0.831, highlighting its effectiveness in fruit detection."
"YOLOv8n surpassed its counterparts in image processing speed, with an impressive inference speed of 3.3 milliseconds, compared to the fastest YOLO11 series model at 4.8 milliseconds, underscoring its suitability for real-time agricultural applications related to complex green fruit environments."