CLIベースのNW自動化バッドノウハウのあれこれ(補足) - # cat /var/log/stereocat

CLIベースのNW自動化バッドノウハウのあれこれについて、思いの外反響があったのでみんな似たようなところで苦労してるんだろうなーと勝手に思っています。で、実際いろいろ作ってたときの記録などなどを元に少しバッドノウハウ系の話をさらってみました。やっていたもの自体は会社でのあれこれの話とかも入って出せないのですが。もう 5 年以上前の話になるので、最近の環境ではそんなに当てはまらない話があるかもしれませんが、もともと、かつてこういうところで困ったから今どういう動きがあるのか、というのを見てもらえればいいやと思っているので問題ないでしょう。

皆様のCLIベース自動化に関する愚痴・鬱憤・バッドノウハウ体験をお待ちしております。

2014-10-26 13:24:26 via Janetter

とつぶやいてみたりしたらいくつかリプライもらったのでその辺も含めてまとめておきます。

ログイン/ログアウト処理関連

ssh strictHostKeyChecking

expect で ssh セッションを張る場合、始めてアクセスするホストの鍵確認応答でこけるというのはみんなやったことがあるのでは…。
まあテスト時とかはともかく、認証周りの運用とかはまじめに考えないとだめです。

ssh -o strictHostKeyChecking=no

ログインリトライ

ログイン処理のリトライ(ユーザ名あるいはパスワードが正しくないときに、数回ログインを繰り返す)処理を入れるかどうか。
- 1回でうまくログインできないケースがあったんだと思われるけど状況詳細不明です。
- ちゃんとリトライカウント入れておかないとループします…

ログイン後の強制プロンプト出力のためのリターン入力

ログインした時にプロンプトが出るマシンと、そうでないマシンがあるから無駄にEnter1回入れるってのは、まさにバッドノウハウ感ある。

2014-10-26 14:17:31 via Janetter

やりますよね。コマンドのエントリポイントが返ってこないと先に進まないんですよ…。
シリアルコンソールサーバを使って、工場出荷状態の機材に管理用の IP を振るところから自動化するというのをやったことがあるんですが、リモートログイン時とシリアル利用時にプロンプトの出方が違うというのもあります。
- あと、初期状態だと初期設定ウィザードとかに入る機材がそれなりにあるので、そこをキャンセルした上で設定コマンド流し込むとか作ってた。

環境変数

ちょっとまえの F5 は、環境変数 TERM の値を見て、知らないやつだとエラー返すというのがありました…(v9だったか?)。テスト用に Cygwin 上でスクリプト書いて実行したら TERM=cygwin だとエラー出されるので環境変数設定し直してるコードが出てきた。
F5 さんはこの辺いろいろ変わったという話もあり…最近のは触ったことないんですがどうでしょうね。

@stereocat v10 までは bigpipe(bp) / TMSH が使えたけど、v11 からは TMSH だけになってしまって…。REST 対応も不完全だから、一時的に TMSH 自動化を強いられるという地獄。

2014-10-26 13:22:00 via Twitter Web Client to @stereocat

ログアウト処理

save, exit, logout 等の処理を行う際に yes/no のような確認応答をする必要があるというのは前回にも書いたとおり。
問題は、ログインしたい時点で、CLI上、どのモードになってるかなんですよね。たとえば Cisco の機材で、いくつかコマンドをなげていて、特権モードで interface 設定していた状態 Router(config-if)# だったとしたら、いったんそのモードを抜けてからログアウトコマンドを打たないとちゃんとログアウトしてくれないわけです。いくつか対応策はあります。たとえばこんな感じ。
- 投げ込むコマンドを記述する段階でログアウトまで意識したコマンドを記述しておく。
  - コード書く処理としては簡単ですが、コマンドシーケンス作る段階で間違えて exit 多いと処理中断したり少ないとうまくログアウトしなかったり、チェックが難しいです。

configure terminal
interface gi0/1
 ip addr...
 no shut
 exit           <= config-if 抜ける
exit            <= config 抜ける
exit            <= enable 抜ける
exit            <= ログアウト

- セッションが切れるまで exit を繰り返し送るといった処理にしておく
  - モード抜けて、最終的にログアウトする段階で yes/no が入ったりするのでそこがどうなるか。
モード遷移とかも管理するのかとかね…。
- エラー有無を無視して end, exit, exit をまとめて流すようにしておくとかもあるかもしれない。

コマンド処理

文字列処理のあれこれ

前も書きましたが、パラメタ化すると ASCII 文字以外を書いてくる人がいます。
パラメタの埋め込み
- テンプレートエンジンとか使ったりするわけですが…。パラメタのバリデーション*1 や、パラメタ指定があったりなかったりするケース*2 をどう扱うかは考えておく必要があります。
- バリデーションも…省略記法が許されるモノとかがあると非常に怪しげに。

IPv6 address glue or paragraph. アドレスが長すぎてくっ付く（split出来なくなる重複する）、または勝手に改行（ある長さから RT @stereocat: 皆様のCLIベース自動化に関する愚痴・鬱憤・バッドノウハウ体験をお待ちしております。

2014-10-26 13:53:03 via Tween

@stereocat あと input/output 入れた値が残るのか、省略されて残るのか、それとも省略なしに変換されるのか、大文字小文字どっちに寄るのか・・・ IPv4 でも同じことがあります。10進なので軽微ですが。 192.168.0.1→192.168.000.001

2014-10-26 14:00:34 via Tween to @stereocat

@stereocat 物凄い細かいところだと、長い文字列を受け付けるのに勝手に32文字で切るとかありますね。config 流し込んだ後、vlan name におかしいところが・・・ decimal の range には強いが、string の length はいい加減なイメージ

2014-10-26 14:06:15 via Tween to @stereocat

@stereocat 数字は誤って受け付けると ASIC が処理できないからしっかり見る、文字列は大半がコメントだから適当。せいぜいオブジェクト化されてて、マッチするかどうかでしょって扱い。

2014-10-26 14:07:37 via Tween to @stereocat

description や remark とかにいろいろ tag 的な情報埋め込んでるところも見たことがあるので…

@stereocat description とか Web UI 的に考えると、サニタイズされてなくて怖い。（´ω｀；）

2014-10-26 14:10:46 via Tween to @stereocat

コマンド別エラー処理

show コマンドなどの出力にプロンプト相当の文字列が含まれるケース…みたいな話を前回したんですが、show log とかやったら、コマンド入力時に引っかけることにしていたエラーメッセージ (たとえば "Command Not Found" みたいなメッセージ) がそのまま出てきて引っかかって処理中断とかね…
- 仕方がないので、このコマンドに対しては、次のプロンプトが出るまでエラーは無視する、といった処理いれるわけです。

ループ回避

これは処理系依存の話があるかもしれないですが…。perl-Expect だと、イベントに対してコールバックを設定しておく形になるのでそれを想定してください。
- spawn したプロセスから返ってくる応答(文字列)について正規表現マッチして、マッチした正規表現に対して設定されているコールバックを呼ぶ。正規表現は複数登録できて、上から順にチェックしていく…という動作をします。
上記の、あるコマンドに対するエラー無視とか、何かを無視して先に進むようなケースはリスクがあります。
- たとえば、コマンド出力にプロンプト相当の文字列があるので無視して先に進む、みたいなのを考えるとわかりやすいと思います。下手すると無限にプロンプト待ちになります。
- 特権モード移行も、多くのネットワーク機器は特権モードになるとプロンプトが変わるんですが、あるデバイスでは、特権ユーザではいると最初から特権モード状態だったりして、特権モードコマンドの前後でプロンプトが変化しないことがあります。で、これはプロンプトマッチの順序を間違えると、やっぱり無限ループする。(モード前後でプロンプトが変化しない場合、特権モードのプロンプトを待ち続ける。)
- ということで、無限(プロンプト待ち)ループを回避するために、一つのコマンドに対してのイベントループカウンタとかをいれて一定以上ループが回っている場合は強制終了させる、といった回避策を入れたりしてました。

そのほかいろいろ

UNIXは真祖（POSIX）があって、基本的な部分はそんなにぶれないけど、NW機器は真祖がいないだよね。そしてセキュリティ機器は中身がBSD/Linuxだけど僕らが触る部分はラッピングされた外の世界だったりするので、こんなにバラバラ。

2014-10-26 14:14:54 via Tween

ラップをほどいて UNIX コマンドラインへ遷移できる機器はまだマシな方。ただしバイナリが特殊だったり、/usr/bin が最少で grep とかすらない場合があるからね。

2014-10-26 14:16:25 via Tween

IPv6 address format と UTF-8 が同じ匂いがして困る。可変長とか、省略形式があるとか滅んでくださいと言いたい。

2014-10-26 14:18:17 via Tween

上書き処理のあれこれ

@stereocat 「ごっそり消して再設定する」状況が今一つ掴めないんですが、ファイルを指定してコンフィグを読み込ませると、古いコンフィグをいったん全部消す動きをするということですか？

2014-10-26 14:35:22 via Janetter to @stereocat

@team_eririn 前のを消さずに単純に上書きしちゃうと、前のconfigと新しく入れたconfigがマージされるとかがあるので…

2014-10-26 14:36:38 via Janetter to @team_eririn

こういう感じで、

conf term
no ip access-list HOGE
ip access-list HOGE
 permit ip ... ...
 deny ip ... ...

いったん消して再設定するようなコマンドを tftp で流し込むとかはよくやります。前提(初期状態)をそろえた上でコマンド生成してやったりする(前の状態に依存せずに処理を作る)方がやりやすいので。インタフェースとかも、いったん初期状態にしてから再設定とか。

conf term
default interface gi0/1
int gi0/1
 ip addr ...
end

これをやらない場合、前のコマンドとかぶるところは上書きされるし、かぶらないところはマージされるし…。
とはいえ、上の ACL 設定変更だって、こういういったんクリアして入れ直しという処理ではなくて、古い ACL を残しておいて、新しい ACL に切り替えた後、何か問題があったらすぐ戻せるようにしておきたい、みたいな話をされたこともあるし…(そうなると現在のコンフィグから処理を組み立てないといけないのでだいぶややこしくなる)。

まあ、あとはケースバイケースなんですが、

BGPみたいにセッション維持した上で情報交換しているもの、再設定で(場合によっては大量の)アドバタイズや何らかの再計算が発生しうるものの自動化は難しい。サービスレベルとかにもよるとおもうけど。

2014-10-26 14:28:35 via Janetter

とかもあるので。そこを自動化するのかどうかという問題もあるのだけど。クリティカルだからこそ自動化する(テスト済みのオペレーションで回せるようにする)という話もあるので。何をどこまでやるのかは、目的に応じてちゃんと方針を考えないといけないです。

複雑度の高い操作を自動化するべきかどうか、という話もあり。操作の重要度(オペミスのリスク)、複雑さ(実装上バグるリスク)、繰り返しの回数、デバイスの台数、作業ウィンドウ、実行させたい人(権限)、…

2014-10-26 14:44:11 via Janetter

おわり

自分達で使っている機器ごとのモジュールとか作っている会社は多いみたいだけど、オープンにするのも難しくて、各社で秘伝のタレ化してるんだろーな

2014-10-26 13:49:19 via Twitter Web Client

ということで、タレ…というかタレのレシピの一部分を公開してみました。

対象メーカがどの程度存在するか分かんないけど、機種名出していく方がバッドノウハウの対象が明確になる気がする。まぁ名前出す出せないはあると思うけど、あくまでネットのドキュメントに書いてある程度の一般論的に。

2014-10-26 14:45:41 via Janetter

そうだよなあと思って探してみたんだけど、そこまで具体的な記録が見当たらなかった…。いや、うろ覚えの記憶はあるんだけど、うかつに書くと闇雲に dis ってしまいそうなんで…。あと、もうちょっと具体的な事例交えて説明できるとよいのだけど、そういうのをいろいろやっていたのはもうだいぶ前なので、うまいことぱっと出てこないんだよね…申し訳ねえ。

対象機器が増えたときの絶望感。。。 | CLIベースのNW自動化バッドノウハウのあれこれ - # cat /var/log/stereocat | tail -n3 (id:stereocat / @stereocat) URL

2014-10-26 13:09:36 via Twitter for Websites

そうなんすよ。これのつらさを理解してもらいたいんですよホントに。

*1:どの時点でエラー処理をするか: 機器にコマンドを投げ込む前に止める? 投げ込んでからエラー見て止める?

*2:パラメタなし:デフォルトを使ったり明示的にパラメタ指定が必要なケースが混在するのをどう再利用するか