ChatGPT クローラー の UA(ユーザーエージェント) と IPアドレス範囲 まとめ

👉 OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明 - ITmedia NEWS hatena-bookmark

公式サイトでは、目次からのリンクなしのページだが、もう一つあるので書いてみた。

リリース当時はここらの話は、Common Clowl 中心だった。

そこらは、最終にあるHNディスカッションリンクを参照でどうぞ。

 

🌍 GPTBot


ユーザーエージェントトークン:
GPTBot

ユーザーエージェント文字列:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

IPアドレス:
40.83.2.64/28

👉 GPTBot - OpenAI API hatena-bookmark

 

🌍 ChatGPT-User


ユーザーエージェントトークン:
ChatGPT-User

ユーザーエージェント文字列:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

IPアドレス:
23.98.142.176/28

👉 Bot - OpenAI API hatena-bookmark

 

🌍 CCBot

以前、使っていましたよね?


ユーザーエージェントトークン:
CCBot

👉 Common Crawl hatena-bookmark

 

🌍 まとめ


# robots.txt

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

実質、手遅れの気休めなんだろな。

👉 GPTBot – OpenAI’s Web Crawler | Hacker News hatena-bookmark


将来、URL の twitter.com は x.com となるんだろうか。

アイコンが変わりました。

URLはどうなるのでしょうか。


❯ curl -I https://x.com
HTTP/2 302
date: Mon, 24 Jul 2023 14:24:27 GMT
location: https://twitter.com/
cache-control: private, max-age=0, no-store, no-cache, must-revalidate, post-check=0, pre-check=0
expires: Thu, 01 Jan 1970 00:00:01 GMT
server: cloudflare
cf-ray: 7ebcd3ab8e352615-NRT

❯ curl -I https://twitter.com
HTTP/2 403
date: Mon, 24 Jul 2023 14:24:21 GMT
perf: 7626143928
server: tsa_m
set-cookie: guest_id_marketing=v1%3A169020866196904294; Max-Age=63072000; Expires=Wed, 23 Jul 2025 14:24:21 GMT; Path=/; Domain=.twitter.com; Secure; SameSite=None
set-cookie: guest_id_ads=v1%3A169020866196904294; Max-Age=63072000; Expires=Wed, 23 Jul 2025 14:24:21 GMT; Path=/; Domain=.twitter.com; Secure; SameSite=None
set-cookie: personalization_id="v1_oj788V5nRvbYdR1OvohwoQ=="; Max-Age=63072000; Expires=Wed, 23 Jul 2025 14:24:21 GMT; Path=/; Domain=.twitter.com; Secure; SameSite=None
set-cookie: guest_id=v1%3A169020866196904294; Max-Age=63072000; Expires=Wed, 23 Jul 2025 14:24:21 GMT; Path=/; Domain=.twitter.com; Secure; SameSite=None
x-powered-by: Express
cache-control: no-cache, no-store, max-age=0
x-transaction-id: dd0d24c26c46ed06
strict-transport-security: max-age=631138519
x-response-time: 182
x-connection-hash: 0a63336cc2c8ce1c490be21f121a4f8e8442c7a69dc1ee67c226dc672635b233

これは、どう考えるべきか。

完全移行しますかね。

しれっと、Unicode 文字も存在する。



【マイナンバー】スマホ用電子証明書がややこしいネーミングで混乱する

データ削除の件も気になっていて、

使ってみようとして少し混乱したので。

👉 スマホのマイナカード機能を止める方法 デジタル庁が案内 端末の初期化ではデータは“消えない” - ITmedia NEWS hatena-bookmark

 

📱 スマホ用電子証明書の有効性確認を行う

以下のサイトを見ながら、まずは確認を行ってみようと。

👉 電子証明書の情報確認 / スマホ用電子証明書の有効性確認を行う | 使い方 hatena-bookmark

練習と思い、上の図を mermaid 記法シーケンス図で書いてみました。


👉 スマホ用電子証明書の有効性確認.md hatena-bookmark

 

📱 「電子証明書」の種類

ちょっと、言葉の意味が分からなくなりました。

以下、上記公式ページから抜粋した「電子証明書」たち。


- スマホ用電子証明書
- あなたの電子証明書
- 利用者証明用電子証明書
- 署名用電子証明書
- 発行元の電子証明書
- スマホ用署名用電子証明書
- スマホ用利用者証明用電子証明書
- あなたのスマホ用電子証明書

....。

直感的に分かりません。

うちのおかんが使えるわけねえだろバカが。

考えられるパターンをある程度書き出してみます。


電子証明書
署名用電子証明書
利用者証明用電子証明書
スマホ用電子証明書
スマホ用署名用電子証明書
スマホ用利用者証明用電子証明書
あなたの電子証明書
あなたの署名用電子証明書
あなたの利用者証明用電子証明書
あなたのスマホ用電子証明書
あなたのスマホ用署名用電子証明書
あなたのスマホ用利用者証明用電子証明書
発行元の電子証明書
発行元の署名用電子証明書
発行元の利用者証明用電子証明書
発行元のスマホ用電子証明書
発行元のスマホ用署名用電子証明書
発行元のスマホ用利用者証明用電子証明書
...

こんなにありました?

 

📱 「あなたの」「発行元の」?

私が混乱したのはこの画面。

「あなたのスマホ用電子証明書」か「発行元のスマホ用電子証明書」どちらのスマホ用電子証明書を

???

「あなたの」

「発行元の」

この2つの言葉が私をさらに混乱させています。

マイナンバーカードデータは、インターネットを利用して、データを照会してから処理を進めますので、「スマホアプリ」でいうところの


「あなたの」→「スマホアプリ内に保存している」

「発行元の」→「クラウド上に登録されている」

と解釈するとなんとなく理解することができました。

 

📱 まとめ

日本語を解読するための表を作っておきます。

そもそも、

「利用者証明」と「署名」と「電子証明書」。

このネーミングが混乱の元。

英語圏やプログラミングでは説明しづらくない?

直感的に使えるネーミングは大事。