A-Liaison BLOG 【Python】PythonでXMLを解析してみよう

雇われるだけの人生から目指せ独立、社会人2年目なゲーム脳SEのブログ。更新頻度＝週2～3回。

[199] [198] [197] [196] [195] [194] [193] [192] [191] [190] [189]

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2025/12/12 (Fri)

現在仕事で扱っているシステムは、外部のシステムとXMLで連携したりします。
そのXML電文にバグがあるんじゃないかということで、調査依頼が飛んできました。

昔の自分なら、帰ってきたXML電文を自分の目で比較したりdiffエディタに突っ込んで比較したりしていたことでしょう。しかし、目での比較は文章化しづらく説得力に欠ける（せいぜいスクリーンショットを取って並べる程度の資料しか作れない）ところがありますし、何より面倒です。
しかも今の私にはPythonと言う強い味方がいるのですから、PythonにXMLの解析をやらせましょう。
コマンドラインからファイル名を受け取って、DOMで解析し、特定の名前の要素の値だけを抜き出して列挙するプログラムをささっと書いてみます。

参考にしたページ一覧：
13.6 xml.dom -- 文書オブジェクトモデル (DOM) API
Python でUTF-8, shift_jis, euc_jpなど日本語を使う方法
xml.dom.minidom を用いた XML の取り扱い
Python備忘録 - mynote

ソースコードは↓こちら。

import sys
import codecs
from xml.dom.minidom import parse


def main():
#    for args in sys.argv:
#        print args
#
#    print 'asobiha kokomadeda! xml parse suruze!!'
#    xmlfile = codecs.open(sys.argv[1], 'r', 'shift_jis')
#    dom = parse(xmlfile)
    dom = parse(sys.argv[1])
    nodes_rcode = dom.getElementsByTagName('FareItemNo')
    for node in nodes_rcode:
        print node.firstChild.nodeValue
    
    dom.unlink()


if __name__ == "__main__":
    main()

たったの２０行（本質的に意味があるのは４行！）で出来ました！
ファイルからの読み込み＆パースもわずか１行です。
（Javaでつくるとこの部分だけで１０行超えてしまいそうです）
Javascriptみたいに、getElementsByTagNameが使えるのが非常にうれしいですね。

注意するべき点は、xml.dom.minidom.parse()が、なぜかencoding="Shift_JIS"のXMLを読み込んでくれないことです。IANAにも登録されている由緒正しい？エンコードなのですが、うまくいかないものは仕方が無いので、XMLの文字エンコードをUTF-8に変換してencoding="UTF-8"を指定すればうまくいきました。

あとは、コマンドラインから起動して、結果をテキストファイルに>リダイレクトしてやればOK！

python abesi.py hogehoge.xml > hogehoge.txt

いやー、スクリプト言語はストレス無く使えていいですね。
今回の作業で一番ストレスを感じたのがDOS窓のあまりのシェルの弱さ（TABキーによる入力補完がLinuxのbashに比べると天地の差）だったぐらいですから。

こういうちょっとしたスクリプトをささっと書けると、なんだかプログラマレベルが上がった気になれて自己満足度アップです。

2008/05/22 (Thu) 【プログラミング】 Trackback() Comment(0)

この記事にコメントする

この記事へのトラックバック

この記事にトラックバックする：

<< 【普通】社会人1年目の頃にやった情報源を増やす方法 HOME 【Java】質問：あなたが一番Javaで嫌いなところはどこですか？ >>

カレンダー

2025/12

日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

ブログ内検索

お名前
タイトル
文字色
メールアドレス
URL
コメント
パスワード