NTT AIセーフティエンジニア面接体験記：モデルセキュリティ・敵対的攻撃・コンテンツセーフティの完全評価

AI安全2025年3月15日著者: BeautyResume チーム

2年のAIセーフティ経験、Google AIセーフティエンジニア3次面接の詳細な振り返り、敵対的攻撃、モデルロバスト性、コンテンツセーフティ審査システム設計、レッドブルーチームを網羅

背景紹介

まず私の経歴から話します。学部は計算機科学、修士は機械学習セキュリティ方向、卒業後は中規模インターネット企業で2年間AIセキュリティ関連の仕事をしてきました。主にモデルの敵対的攻撃防御とコンテンツセーフティの審査を担当していました。正直、AIセキュリティという分野はここ2年本当に人気が出ていて、特に大規模モデルが登場してから様々なセキュリティ問題が次々と表面化しています。私自身もNTTのAIセーフティチームをずっと关注していて、ついに勇気を出して応募しました。

応募したのはNTTのAIセーフティエンジニアのポジションで、勤務地は東京です。面接プロセス全体で約3週間かかり、3回の技術面接+1回のHR面接でした。かなりハードでしたが、得るものも多かったです。以下、面接プロセスを詳細に振り返ります。AIセーフティを目指す方の参考になれば幸いです。

面接プロセスの振り返り

一次面接：AIセーフティ基礎+敵対的攻撃

一次面接の面接官は若手のエンジニアで、チームのコア開発者と思われます。まず自己紹介から始まり、その後AIセーフティの基礎知識について質問されました。

最初の質問：AIセーフティは主にどのような側面を含むと思いますか？この質問には包括的に答えました。モデルセキュリティ（敵対的攻撃、データポイズニング、モデル抽出）、データセキュリティ（プライバシー保護、連合学習）、アプリケーションセキュリティ（コンテンツセーフティ、公平性）まで話しました。面接官は頷いて認め、敵対的攻撃の分類について掘り下げました。

次に敵対的攻撃に焦点を当てました：FGSM、PGD、C&W攻撃の原理と違いは何ですか？これは私の得意分野でした。FGSMは高速勾配符号法で1ステップで敵対的サンプルを生成、PGDは射影勾配降下法で複数ステップの反復により強力、C&Wは最適化ベースの攻撃でCW距離を損失関数として使用します。FGSMの数式も書きました。面接官は満足そうでした。

実践的な質問：画像分類モデルの敵対的防御を構築する場合、どのようなアプローチを使いますか？敵対的訓練（AT）、入力前処理（ノイズ除去、圧縮）、検出方法（部分空間射影）を挙げ、TRADESとMARTという2つの敵対的訓練方法とその損失関数の設計について重点的に説明しました。面接官はTRADESのトレードオフパラメータの調整方法を追問し、検証セット上のclean accuracyとrobust accuracyでバランスを取ると答えました。

新しい方向についての質問：大規模モデルの脱獄攻撃について知っていますか？これはちょうど研究していたので、GCG、AutoDANなどの最適化ベースの脱獄方法や、ロールプレイに基づくソーシャルエンジニアリング型脱獄について話しました。面接官はこの話題に非常に興味を持ち、約10分間話し合いました。

一次面接は約50分で、面接官は基礎がしっかりしていると言い、二次面接を待つように伝えました。

二次面接：モデルロバスト性+コンテンツセーフティ

二次面接はシニアエンジニアで、テックリードクラスと思われます。この面接は一次よりも明らかに深かったです。

まずモデルロバスト性について：敵対的ロバスト性以外に、どのようなロバスト性の問題を知っていますか？分布シフト（distribution shift）、自然摂動（ぼかし、ノイズ、天気変化など）、複合ロバスト性について話しました。面接官は分布シフトの検出と適応方法を追問し、ドメイン適応とテスト時適応（TTA）を挙げました。

次にコンテンツセーフティの方向へ：大規模モデルのコンテンツセーフティが直面する主な課題は何ですか？有害コンテンツ生成（暴力、ポルノ、差別）、プライバシー漏洩（訓練データの記憶）、ハルシネーション、脱獄攻撃のいくつかの側面について話しました。面接官は大規模モデルが訓練データのプライバシー情報を記憶しているかどうかを検出する方法を追問し、メンバーシップ推論攻撃（Membership Inference Attack）と抽出攻撃を挙げました。

システム設計問題：リアルタイムで有害出力を遮断できる大規模モデルコンテンツセーフティ審査システムを設計してください。これは挑戦的でした。アーキテクチャ図を描きました：入力層でプロンプト検出（分類器+ルールエンジン）、モデル層でセーフティアライメント（RLHF/DPO）、出力層でリアルタイム審査（分類器+キーワードフィルタリング）、フィードバックループを追加。面接官はレイテンシ制御について追問し、出力層の審査は軽量分類器とストリーミング処理を組み合わせてレイテンシを下げると答えました。

オープンエンドの質問：AIセーフティにおけるレッドブルーチーム演習はどのように行うべきですか？ブルーチームは防御（セーフティアライメント、入出力フィルタリング、モデルハードニング）、レッドチームは攻撃（脱獄テスト、敵対的サンプル生成、データポイズニングシミュレーション）、双方が継続的に対抗・反復すると説明しました。面接官はこのフレームワークを認めました。

二次面接は約60分で、深い議論ができ、面接官からも多くのフィードバックがありました。

三次面接：プロジェクト深掘り+レッドブルーチーム

三次面接は部門のリーダーで、プレッシャーが明らかに上がりました。この面接は主に私のプロジェクト経験について深掘りされました。

まず最も挑戦的なプロジェクトの紹介を求められました。以前構築した敵対的攻撃検出システムについて話すと、面接官は多くの詳細を追問しました：検出精度は？誤検出率は？オンラインレイテンシは？分布外サンプルの処理は？各質問にはデータに基づいた回答が必要で、曖昧さは許されません。

面白い質問：攻撃者があなたの防御スキームを知っている場合、どうやって回避しますか？これは適応的攻撃の概念です。攻撃者は検出器に対して勾配ベースの攻撃を行うか、微分不可能な変換を使って前処理を回避する可能性があると説明しました。防御側は適応的脅威モデルを考慮し、ワーストケース評価を行う必要があります。

大規模モデルセーフティの最先端方向について：今後1〜2年でAIセーフティの最も重要な研究方向は何だと思いますか？3つ挙げました：マルチモーダルセーフティ（画像・テキスト・音声の合同攻撃/防御）、検証可能なセーフティ（形式的手法によるモデル安全性の保証）、AIシステムレベルのセーフティ（エージェントセーフティ、ツール使用セーフティ）。

三次面接は約45分で、面接官は最後に「良い話ができた」と言い、HR面接を待つように伝えました。

出題まとめ

1. AIセーフティは主にどのような側面を含みますか？

2. FGSM、PGD、C&W攻撃の原理と違いは？

3. 敵対的防御のアプローチには何がありますか？TRADESとMARTの違いは？

4. 大規模モデルの脱獄攻撃の方法には何がありますか？

5. 敵対的ロバスト性以外に、どのようなロバスト性の問題がありますか？

6. 分布シフトの検出と適応方法は？

7. 大規模モデルのコンテンツセーフティが直面する課題は？

8. 大規模モデルが訓練データのプライバシー情報を記憶しているかどうかを検出する方法は？

9. リアルタイム大規模モデルコンテンツセーフティ審査システムを設計してください。

10. AIセーフティにおけるレッドブルーチーム演習はどのように行うべきか？

11. 攻撃者があなたの防御を知っている場合、どう回避するか？

12. 今後のAIセーフティの最も重要な研究方向は？

心得とアドバイス

1. 基礎をしっかり：AIセーフティの面接では概念だけでなく、数式や実装の詳細まで掘り下げられます。FGSMの数式やTRADESの損失関数などは必ず書けるようにしましょう。

2. 最先端に注目：大規模モデルセーフティはここ2年のホットトピックです。脱獄攻撃やセーフティアライメントは必ず理解しておきましょう。面接官は最新の動向に追いついているかを特に重視します。

3. システム設計能力：AIセーフティはアルゴリズムだけではなく、システム思考も必要です。コンテンツセーフティ審査システムのような問題では、アーキテクチャレベルのソリューションを提供できる必要があります。

4. レッドブルーチームの思考：セーフティの仕事には攻撃と防御の両方の視点が必要です。面接では「攻撃者があなたのスキームを知っていたらどうする？」とよく聞かれます。

5. プロジェクトにはデータを：三次面接でプロジェクトを深掘りされる際、各指標には具体的な数値が必要です。曖昧な回答は深みがないと面接官に思わせます。

FAQ

Q：AIセーフティのポジションにはどのような背景が必要ですか？
A：機械学習の基礎＋セキュリティの思考。必ずしもセキュリティ方向の出身である必要はありませんが、攻撃と防御についての基本的な理解が必要です。

Q：AIセーフティの経験がない場合、どう準備すればいいですか？
A：まず敵対的攻撃から入門し、Goodfellowの敵対的サンプル論文を読んでから、いくつかの実践プロジェクトを行うのが良いでしょう。

Q：NTT AIセーフティチームの技術スタックは？
A：主にPython、PyTorchフレームワーク、Rayで分散訓練、内部に独自のセーフティ評価プラットフォームがあります。

Q：面接の難易度は？
A：中上程度の難易度。一次は基礎、二次はシステム設計、三次はプロジェクト深掘りで、全体的に包括的です。

Q：AIセーフティのキャリア展望は？
A：非常に有望です。大規模モデルの普及に伴い、セーフティのニーズは増加する一方で、特にコンテンツセーフティとモデルセキュリティの方向が期待できます。

#AI Safety#Adversarial Attacks#Content Safety#ByteDance#Model Robustness#Red Team vs Blue Team