データ抽出 - 類似度、重複検出、サンプリング
大規模データセットから必要な情報を効率的に抽出します。条件ベースのフィルタリング、行番号指定、類似データ検索、重複検出、ランダムサンプリング、データ検証など、様々な抽出方法に対応した実践的なプロンプト集です。
フィルタリング
複数の条件を指定してデータから該当行を抽出します。
1
2025-12-06 23:16
データから条件に基づいて行を抽出してください。・データ形式:
・フィルタ条件:
・複数条件の論理:
・出力形式:
・マッチ数表示:
マッチ件数を先頭に表示
行番号指定による抽出
1,2,3,5-10などの行番号を指定してデータを抽出します。
2
2025-12-06 23:16
指定した行番号のデータを抽出してください。・抽出行番号:
・ヘッダー行:
・入力形式:
・出力形式:
・出力内容:
ヘッダーを含める 行番号を表示
重複レコードの抽出
重複するレコードを検出して抽出または削除します。
4
2025-12-06 23:16
重複レコードを検出・処理してください。・処理内容:
・比較対象:
・比較対象列:
・大文字小文字:
・スペース処理:
・出力形式:
類似データの抽出
指定したテキストに類似したデータを抽出します。
3
2025-12-06 23:16
類似したデータを検索して抽出してください。・検索キーワード:
・類似度:
・検索対象:
・列名/列番号:
・出力順序:
・結果数:
データのサンプリング
ランダムサンプリング、先頭/末尾のN行抽出、間引き抽出に対応します。
5
2025-12-06 23:16
データをサンプリングしてください。・サンプリング方式:
・サンプル数/間隔:
・間隔:
・ヘッダー行:
・乱数シード:
再現可能にする(シード値指定)
・出力形式:
データ検証とエラー行の抽出
パターンチェック、範囲チェック、必須チェックなどの検証ルールを適用し、エラー行を抽出します。
6
2025-12-06 23:16
データを検証してエラー行を抽出してください。・検証方式:
・対象列:
・検証ルール:
・エラー時の処理:
・出力形式:
フィルタリング, データ抽出, 行番号指定, 類似検索, 重複検出, サンプリング, データ検証