[2026] Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) - Databricks-Certified-Data-Engineer-Professional日本語 무료 시험 문제

문제1

データエンジニアがDatabricksクエリプロファイラーでクエリの実行を確認している際、「上位演算子」パネルに、処理時間(Time Spent)とメモリピーク(Memory Peak)のメトリックが高いソート演算子が表示されていることを発見しました。Spark UIにも、頻繁なデータ流出が報告されています。データエンジニアはこの問題にどのように対処すべきでしょうか？

A. メモリ使用量を削減するためにブロードキャスト参加に切り替えます。

B. ソート操作をフィルタ操作に変換します。

C. シャッフルパーティションの数を増やして、データをより適切に分散します。

D. ソートする前に、DataFrame を単一のパーティションに再パーティション化します。

정답: C

설명: (Fast2test 회원만 볼 수 있음)

문제2

Lakehouse内のcustomer_churn_paramsというテーブルは、機械学習チームによる顧客離脱予測に使用されています。このテーブルには、複数の上流ソースから得られた顧客情報が含まれています。現在、データエンジニアリングチームは、上流データソースから得られた最新の有効な値でこのテーブルを毎晩上書きすることで、データを更新しています。
MLチームが使用しているチャーン予測モデルは、本番環境では比較的安定しています。チームは過去24時間以内に変更されたレコードのみに基づいて予測を行うことに注力しています。
変更されたレコードの識別を簡素化するアプローチはどれでしょうか?

A. 新しい予測を行う前に、一意の顧客を識別するキーで、以前のモデル予測と現在の customer_churn_params との差を計算します。以前の予測に含まれていない顧客についてのみ予測を行います。

B. 現在の上書きロジックをマージステートメントに置き換えて、変更されたレコードのみを変更します。変更データフィードによって識別された変更されたレコードについて予測を行うロジックを記述します。

C. 上書きロジックを変更して、呼び出しによって入力されたフィールドを含める
データが書き込まれるときに spark.sql.functions.current_timestamp() が呼び出されます。このフィールドを使用して、特定の日付に書き込まれたレコードを識別します。

D. customer_churn_params テーブルのすべての行に解約モデルを適用しますが、予測が変更されていない行を無視して予測テーブルにアップサートを実行するロジックを実装します。

E. 完全な出力モードを使用してバッチジョブを構造化ストリーミングジョブに変換します。customer_churn_params テーブルから読み取り、解約モデルに対して増分予測を行うように構造化ストリーミングジョブを構成します。

정답: B

설명: (Fast2test 회원만 볼 수 있음)

문제3

Databricks Asset Bundle プロジェクトのファイル resources/app.yml で、データエンジニアは Databricks アプリ databricks_app_deployed とボリューム volume_deployed をデプロイし、Databricks アプリの背後にあるサービスプリンシパルにボリュームへの読み取りおよび書き込みのアクセス許可を付与したいと考えています。
データエンジニアはどのようにしてデプロイメントを実現する必要がありますか?

A.

B.

C.

D.

정답: C

설명: (Fast2test 회원만 볼 수 있음)

문제4

Spark Structured Streaming で使用される一般的なプログラミングモデルの特徴を説明する記述はどれですか。

A. 構造化ストリーミングは、特殊なハードウェアと I/O ストリームを使用して、データ転送のレイテンシを 1 秒未満に抑えます。

B. 構造化ストリーミングは、データストリームに到着する新しいデータを、無制限のテーブルに追加される新しい行としてモデル化します。

C. 構造化ストリーミングはメッセージングバスとして実装されており、Apache Kafka から派生しています。

D. 構造化ストリーミングは、キャッシュされたステージの増分状態値を保持するノードの分散ネットワークに依存します。

E. 構造化ストリーミングは、GPU の並列処理を活用して、高度な並列データスループットを実現します。

정답: B

설명: (Fast2test 회원만 볼 수 있음)

문제5

データエンジニアは、Databricks 間のシナリオにおいて読み取りパフォーマンスを最適化するために、Delta Sharing を設定しようとしています。受信者は、共有された売上データに対してタイムトラベルクエリとストリーミング読み取りを実行する必要があります。これらの機能を有効にしながら最適なパフォーマンスを実現するには、どの構成が最適でしょうか？

A. 履歴付きでテーブルを共有し、テーブルでパーティションが有効になっていないことを確認し、共有する前に CDF を有効にします。

B. パフォーマンスを向上させるには、Databricks 間の共有ではなくオープン共有プロトコルを使用します。

C. 履歴なしでテーブルを共有し、パーティション分割を有効にしてクエリのパフォーマンスを向上させます。

D. 履歴なしでスキーマ全体を共有し、パフォーマンスのために受信者側のキャッシュに依存します。

정답: A

설명: (Fast2test 회원만 볼 수 있음)

문제6

データエンジニアリングチームのメンバーが、より大規模なデータパイプラインの一部としてスケジュール設定したいという短いノートブックを提出しました。以下のコマンドは、提示されているとおりに実行した場合に論理的に正しい結果を生成するものと仮定します。

ジョブとしてスケジュールする前にノートブックから削除する必要があるコマンドはどれですか?

A. コマンド6

B. コマンド3

C. コマンド 5

D. コマンド2

E. コマンド4

정답: A

설명: (Fast2test 회원만 볼 수 있음)

문제7

データアーキテクトは、データが外部ソースから Databricks Lakehouse に取り込まれたら、テーブルアクセス制御を活用してすべての運用テーブルとビューのアクセス許可を管理することを決定しました。
次のロジックを実行して、運用データベースでの対話型クエリの権限をコアエンジニアリンググループに付与しました。
データベース prod の使用権限を eng に付与します。
データベース prod に対する SELECT 権限を eng に付与します。
これらが eng グループに付与されている唯一の権限であり、これらのユーザーはワークスペース管理者ではないと仮定すると、どのステートメントがそれらの権限について説明していますか?

A. グループメンバーは prod データベース内のすべてのテーブルとビューをクエリできますが、データベース内で何も作成または編集することはできません。

B. グループメンバーは prod データベース内のすべてのテーブルを一覧表示できますが、それらのテーブルに対するクエリの結果を表示することはできません。

C. グループメンバーは prod データベースに対する完全な権限を持ち、他のユーザーまたはグループに権限を割り当てることもできます。

D. グループメンバーは、prod データベース内のすべてのテーブルとビューを作成、クエリ、および変更できますが、カスタム関数を定義することはできません。

E. グループメンバーは、prod データベース内のすべてのテーブルとビューを照会および変更できますが、新しいテーブルやビューを作成することはできません。

정답: A

설명: (Fast2test 회원만 볼 수 있음)

문제8

ある企業は、アカウントの取引をDelta Lakeテーブルに保存しています。アカウントレベルの相関関係(例：UPDATEステートメント)を頻繁に適用する必要がありますが、ファイルのチャーン(変化)を減らし、書き込みパフォーマンスを向上させるため、変更のたびにParquetファイル全体を書き換えるのを避けたいと考えています。Delta Lakeのどの機能を有効にすべきでしょうか？

A. Deltaテーブルで削除ベクトルを有効にする

B. Deltaテーブルをaccount_idでパーティション分割する

C. 書き込み時に自動ファイル圧縮を有効にする

D. Deltaテーブルの変更データフィードを有効にする

정답: A

설명: (Fast2test 회원만 볼 수 있음)

문제9

データエンジニアは、修復履歴を含む最新のジョブ実行に関する情報を収集するアプリケーションを作成する必要があります。データエンジニアはリクエストをどのようにフォーマットすればよいでしょうか？

A. run_id と include_history パラメータを指定して /api/2.1/jobs/runs/get を呼び出します。

B. job_idとinclude_historyパラメータを指定して/api/2.1/jobs/runs/getを呼び出します。

C. job_idとinclude_historyパラメータを指定して/api/2.1/jobs/runs/listを呼び出します。

D. run_id と include_history パラメータを指定して /api/2.1/jobs/runs/list を呼び出します。

정답: C

설명: (Fast2test 회원만 볼 수 있음)

문제10

データエンジニアは、Unity Catalog で管理されるテーブル内の機密性の高い列に列マスキングを実装する必要があります。マスキングロジックでは、ユーザーが特定のグループに属しているかどうかを動的にチェックする必要があります。このグループは、グループを許可された部門にマッピングする別のテーブル(group_access)で定義されています。この要件を効率的に適用するには、エンジニアはどのようなアプローチを採用すべきでしょうか？

A. 機密列を選択せずにビューを作成します。

B. UDF 内の group_access マッピングテーブルを参照する列マスクを適用します。

C. 許可されたグループをハードコードする UDF を作成し、それを列マスクとして適用します。

D. 行フィルターを使用して、ユーザーのグループに基づいてアクセスを制限します。

정답: B

설명: (Fast2test 회원만 볼 수 있음)

문제11

上流システムは、特定のデータバッチの日付をパラメータとしてDatabricks Jobs APIに渡すように構成されています。スケジュール対象のノートブックは、このパラメータを使用して、以下のコードでデータを読み込みます。
df = spark.read.format("parquet").load(f"/mnt/source/(date)")
上記のコードブロックで使用されている日付 Python 変数を作成するには、どのコードブロックを使用する必要がありますか?

A. date = spark.conf.get("date")

B. input_dict = input()
date= input_dict["date"]

C. dbutils.widgets.text("date", "null")
date = dbutils.widgets.get("date")

D. date = dbutils.notebooks.getParam("date")

E. import sys
date = sys.argv[1]

정답: C

설명: (Fast2test 회원만 볼 수 있음)

문제12

データエンジニアリングチームは、毎晩のバッチ更新を通じて集計統計テーブルを維持しています。このテーブルには、前日の合計売上に加え、過去7日間、年初来、四半期初来など、様々な期間の合計と平均が含まれています。このテーブルはstore_saies_summaryという名前で、スキーマは以下のとおりです。

daily_store_sales テーブルには、store_sales_summary を更新するために必要なすべての情報が含まれています。
このテーブルのスキーマは次のとおりです。
店舗ID INT、売上日 DATE、売上合計 FLOAT
daily_store_sales がタイプ 1 テーブルとして実装され、手動データ監査後に total_sales 列が調整される可能性がある場合、store_sales_summary テーブルで正確なレポートを生成するための最も安全な方法はどれですか。

A. Structured Streaming を使用して、daily_store_sales の変更データフィードにサブスクライブし、更新ごとに store_sales_summary テーブルの集計に変更を適用します。

B. daily_store_sales テーブルに対して適切な集計ロジックをバッチ読み取りとして実装し、store_sales_summary テーブルに毎晩新しい行を追加します。

C. daily_store_sales テーブルに対してバッチ読み取りとして適切な集計ロジックを実装し、各更新で store_sales_summary テーブルを上書きします。

D. daily_store_sales テーブルに対するバッチ読み取りとして適切な集計ロジックを実装し、upsert ロジックを使用して store_sales_summary テーブルの結果を更新します。

E. daily_store_sales テーブルに対する構造化ストリーミング読み取りとして適切な集計ロジックを実装し、upsert ロジックを使用して store_sales_summary テーブルの結果を更新します。

정답: C

문제13

テーブルは次のコードで登録されます。

users と orders はどちらも Delta Lake テーブルです。recent_orders をクエリした結果を説明するステートメントはどれですか。

A. テーブルが定義されるとすべてのロジックが実行され、テーブルの結合結果が DBFS に保存されます。この保存されたデータは、テーブルがクエリされたときに返されます。

B. テーブルが定義されると結果が計算され、キャッシュされます。これらのキャッシュされた結果は、新しいレコードがソーステーブルに挿入されるたびに増分更新されます。

C. すべてのロジックはクエリ時に実行され、クエリの終了時にソーステーブルの有効なバージョンを結合した結果が返されます。

D. 各ソーステーブルのバージョンはテーブルトランザクションログに保存され、クエリ結果はクエリごとに DBFS に保存されます。

E. すべてのロジックはクエリ時に実行され、クエリの開始時点のソーステーブルの有効なバージョンを結合した結果が返されます。

정답: A

설명: (Fast2test 회원만 볼 수 있음)

Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) - Databricks-Certified-Data-Engineer-Professional日本語무료 덤프문제 풀어보기

우리와 연락하기

유용한 링크

최신 업데이트