diff --git a/src/app/endpoints/responses.py b/src/app/endpoints/responses.py
new file mode 100644
index 000000000..4310dd562
--- /dev/null
+++ b/src/app/endpoints/responses.py
@@ -0,0 +1,192 @@
+"""Handler for REST API call to provide OpenAI-compatible responses endpoint."""
+
+import logging
+from typing import Annotated, Any
+
+from fastapi import APIRouter, Depends, HTTPException, Request, status
+from llama_stack_client import APIConnectionError
+
+import constants
+import metrics
+from authentication import get_auth_dependency
+from authentication.interface import AuthTuple
+from authorization.middleware import authorize
+from client import AsyncLlamaStackClientHolder
+from configuration import configuration
+from models.config import Action
+from models.requests import CreateResponseRequest
+from models.responses import (
+    OpenAIResponse,
+    ForbiddenResponse,
+    UnauthorizedResponse,
+    QueryResponse,
+)
+from utils.endpoints import check_configuration_loaded
+from utils.openai_mapping import (
+    map_openai_to_query_request,
+    map_query_to_openai_response,
+)
+from app.endpoints.query import retrieve_response
+
+logger = logging.getLogger("app.endpoints.handlers")
+router = APIRouter(tags=["responses"])
+
+# Response definitions for OpenAPI documentation
+responses_response_definitions: dict[int | str, dict[str, Any]] = {
+    200: {
+        "description": "OpenAI-compatible response generated successfully",
+        "model": OpenAIResponse,
+    },
+    400: {
+        "description": "Missing or invalid credentials provided by client",
+        "model": UnauthorizedResponse,
+    },
+    403: {
+        "description": "User is not authorized",
+        "model": ForbiddenResponse,
+    },
+    422: {
+        "description": "Request validation failed",
+        "content": {
+            "application/json": {
+                "example": {
+                    "response": constants.UNABLE_TO_PROCESS_RESPONSE,
+                    "cause": "Invalid input parameters or request format",
+                }
+            }
+        },
+    },
+    500: {
+        "description": "Internal server error",
+        "content": {
+            "application/json": {
+                "example": {
+                    "response": "Unable to connect to Llama Stack",
+                    "cause": "Connection error.",
+                }
+            }
+        },
+    },
+}
+
+
+@router.post("/responses", responses=responses_response_definitions)
+@authorize(Action.RESPONSES)
+async def responses_endpoint_handler(
+    request: Request,  # pylint: disable=unused-argument
+    responses_request: CreateResponseRequest,
+    auth: Annotated[AuthTuple, Depends(get_auth_dependency())],
+) -> OpenAIResponse:
+    """
+    Handle request to the /responses endpoint.
+
+    Processes a POST request to the /responses endpoint, providing OpenAI-compatible
+    API responses while using Lightspeed's internal RAG and LLM integration.
+    Converts OpenAI request format to internal QueryRequest, processes it through
+    existing Lightspeed logic, and converts the response back to OpenAI format.
+
+    This endpoint maintains full compatibility with the OpenAI Responses API
+    specification while leveraging all existing Lightspeed functionality including
+    authentication, authorization, RAG database queries, and LLM integration.
+
+    Args:
+        request: FastAPI Request object containing HTTP request details.
+        responses_request: OpenAI-compatible request containing model, input, and options.
+        auth: Authentication tuple containing user information and token.
+
+    Returns:
+        OpenAIResponse: OpenAI-compatible response with generated content and metadata.
+
+    Raises:
+        HTTPException: For connection errors (500) or other processing failures.
+
+    Example:
+        ```python
+        # Request
+        {
+            "model": "gpt-4",
+            "input": "What is Kubernetes?",
+            "instructions": "You are a helpful DevOps assistant"
+        }
+
+        # Response
+        {
+            "id": "resp_67ccd2bed1ec8190b14f964abc0542670bb6a6b452d3795b",
+            "object": "response",
+            "created_at": 1640995200,
+            "status": "completed",
+            "model": "gpt-4",
+            "output": [...],
+            "usage": {...},
+            "metadata": {"referenced_documents": [...]}
+        }
+        ```
+    """
+    check_configuration_loaded(configuration)
+
+    # Extract authentication details
+    user_id, _, _skip_userid_check, token = auth  # pylint: disable=unused-variable
+
+    try:
+        # Convert OpenAI request to internal QueryRequest format
+        query_request = map_openai_to_query_request(responses_request)
+
+        # Get Llama Stack client and retrieve response using existing logic
+        client = AsyncLlamaStackClientHolder().get_client()
+
+        # For MVP simplicity, use default model/provider selection logic from query.py
+        # This will be enhanced in Phase 2 to support explicit model mapping
+        summary, conversation_id, referenced_documents, token_usage = (
+            await retrieve_response(
+                client,
+                responses_request.model,  # Pass model directly for now
+                query_request,
+                token,
+                mcp_headers={},  # Empty for MVP
+                provider_id="",  # Will be determined by existing logic
+            )
+        )
+
+        # Create QueryResponse structure from TurnSummary for mapping
+
+        internal_query_response = QueryResponse(
+            conversation_id=conversation_id,
+            response=summary.llm_response,
+            rag_chunks=[],  # MVP: use empty list (summary.rag_chunks if available)
+            tool_calls=None,  # MVP: simplified (summary.tool_calls if available)
+            referenced_documents=referenced_documents,
+            truncated=False,  # MVP: default to False
+            input_tokens=token_usage.input_tokens,
+            output_tokens=token_usage.output_tokens,
+            available_quotas={},  # MVP: empty quotas
+        )
+
+        # Convert internal response to OpenAI format
+        openai_response = map_query_to_openai_response(
+            query_response=internal_query_response,
+            openai_request=responses_request,
+        )
+
+        return openai_response
+
+    except APIConnectionError as e:
+        # Update metrics for the LLM call failure
+        metrics.llm_calls_failures_total.inc()
+        logger.error("Unable to connect to Llama Stack: %s", e)
+        raise HTTPException(
+            status_code=status.HTTP_500_INTERNAL_SERVER_ERROR,
+            detail={
+                "response": "Unable to connect to Llama Stack",
+                "cause": str(e),
+            },
+        ) from e
+    except (ValueError, AttributeError, TypeError) as e:
+        # Handle validation and mapping errors
+        logger.error("Request validation or processing error: %s", e)
+        raise HTTPException(
+            status_code=status.HTTP_422_UNPROCESSABLE_ENTITY,
+            detail={
+                "response": constants.UNABLE_TO_PROCESS_RESPONSE,
+                "cause": f"Invalid input parameters or request format: {str(e)}",
+            },
+        ) from e
diff --git a/src/app/routers.py b/src/app/routers.py
index 66c707668..a59021522 100644
--- a/src/app/routers.py
+++ b/src/app/routers.py
@@ -18,6 +18,7 @@
     conversations_v2,
     metrics,
     tools,
+    responses,
 )
 
 
@@ -35,6 +36,7 @@ def include_routers(app: FastAPI) -> None:
     app.include_router(providers.router, prefix="/v1")
     app.include_router(query.router, prefix="/v1")
     app.include_router(streaming_query.router, prefix="/v1")
+    app.include_router(responses.router, prefix="/v1")
     app.include_router(config.router, prefix="/v1")
     app.include_router(feedback.router, prefix="/v1")
     app.include_router(conversations.router, prefix="/v1")
diff --git a/src/models/config.py b/src/models/config.py
index c2542dad9..9d33ec99e 100644
--- a/src/models/config.py
+++ b/src/models/config.py
@@ -350,6 +350,9 @@ class Action(str, Enum):
     # Access the streaming query endpoint
     STREAMING_QUERY = "streaming_query"
 
+    # Access the responses endpoint
+    RESPONSES = "responses"
+
     # Access the conversation endpoint
     GET_CONVERSATION = "get_conversation"
 
diff --git a/src/models/requests.py b/src/models/requests.py
index 1033828e1..915c35908 100644
--- a/src/models/requests.py
+++ b/src/models/requests.py
@@ -415,6 +415,103 @@ def get_value(self) -> bool:
         return self.status
 
 
+class CreateResponseRequest(BaseModel):
+    """Model representing an OpenAI-compatible request for the Responses API.
+
+    This model follows the OpenAI API specification for the /v1/responses endpoint,
+    allowing clients to send requests in OpenAI format while maintaining internal
+    compatibility with Lightspeed's existing RAG and LLM integration.
+
+    Attributes:
+        model: The model to use for the response generation.
+        input: The input text or array of texts to process.
+        instructions: Optional instructions to guide the response generation.
+        temperature: Optional temperature for controlling randomness (0.0 to 2.0).
+        max_output_tokens: Optional maximum number of tokens in the response.
+
+    Example:
+        ```python
+        request = CreateResponseRequest(
+            model="gpt-4",
+            input="What is Kubernetes?"
+        )
+        ```
+    """
+
+    model: str = Field(
+        description="The model to use for response generation",
+        examples=["gpt-4", "gpt-3.5-turbo"],
+        min_length=1,
+    )
+
+    input: str | list[str] = Field(
+        description="The input text or array of texts to process",
+        examples=["What is Kubernetes?", ["Explain containers", "How do they work?"]],
+    )
+
+    instructions: Optional[str] = Field(
+        None,
+        description="Optional instructions to guide the response generation",
+        examples=["You are a helpful DevOps assistant"],
+    )
+
+    temperature: Optional[float] = Field(
+        None,
+        description="Temperature for controlling randomness (0.0 to 2.0)",
+        examples=[0.7, 1.0],
+        ge=0.0,
+        le=2.0,
+    )
+
+    max_output_tokens: Optional[int] = Field(
+        None,
+        description="Maximum number of tokens in the response",
+        examples=[1000, 2000],
+        gt=0,
+    )
+
+    model_config = {
+        "extra": "forbid",
+        "json_schema_extra": {
+            "examples": [
+                {
+                    "model": "gpt-4",
+                    "input": "What is Kubernetes?",
+                },
+                {
+                    "model": "gpt-3.5-turbo",
+                    "input": "Explain Docker containers",
+                    "instructions": "You are a helpful DevOps assistant",
+                    "temperature": 0.7,
+                    "max_output_tokens": 1000,
+                },
+                {
+                    "model": "gpt-4",
+                    "input": ["What is Kubernetes?", "How does it work?"],
+                    "temperature": 0.5,
+                },
+            ]
+        },
+    }
+
+    @field_validator("input")
+    @classmethod
+    def validate_input(cls, value: str | list[str]) -> str | list[str]:
+        """Validate that input is not empty."""
+        if isinstance(value, str):
+            if not value.strip():
+                raise ValueError("Input string cannot be empty")
+        elif isinstance(value, list):
+            if not value:
+                raise ValueError("Input array cannot be empty")
+            for item in value:
+                if not isinstance(item, str) or not item.strip():
+                    raise ValueError(
+                        "All items in input array must be non-empty strings"
+                    )
+        return value
+
+
 class ConversationUpdateRequest(BaseModel):
     """Model representing a request to update a conversation topic summary.
 
diff --git a/src/models/responses.py b/src/models/responses.py
index 1c03bbe84..48d69a338 100644
--- a/src/models/responses.py
+++ b/src/models/responses.py
@@ -4,7 +4,7 @@
 
 from typing import Any, Optional, Union
 
-from pydantic import AnyUrl, BaseModel, Field
+from pydantic import AnyUrl, BaseModel, Field, field_validator, model_validator
 
 from llama_stack_client.types import ProviderInfo
 
@@ -1169,3 +1169,376 @@ def __init__(self, storage_path: str):
             ]
         }
     }
+
+
+# OpenAI Responses API Models
+
+
+class ResponseContent(BaseModel):
+    """Model representing content within a response message.
+
+    Following OpenAI API specification for response content structure.
+    Currently supports text content type for MVP implementation.
+
+    Attributes:
+        type: The type of content (currently only "text" supported).
+        text: The text content (required when type is "text").
+
+    Example:
+        ```python
+        content = ResponseContent(
+            type="text",
+            text="Kubernetes is an open-source container orchestration platform..."
+        )
+        ```
+    """
+
+    type: str = Field(
+        description="The type of content",
+        examples=["text"],
+    )
+
+    text: Optional[str] = Field(
+        None,
+        description="The text content (required when type is 'text')",
+        examples=["Kubernetes is an open-source container orchestration platform..."],
+    )
+
+    @field_validator("type")
+    @classmethod
+    def validate_type(cls, value: str) -> str:
+        """Validate that content type is supported."""
+        if value != "text":
+            raise ValueError("Currently only 'text' content type is supported")
+        return value
+
+    @model_validator(mode="after")
+    def validate_text_content(self) -> "ResponseContent":
+        """Validate text content based on type."""
+        if self.type == "text":
+            if self.text is None:
+                raise ValueError("text field is required when type is 'text'")
+            # pylint: disable=no-member
+            if self.text is not None and not self.text.strip():
+                raise ValueError("text content cannot be empty")
+        return self
+
+
+class ResponseMessage(BaseModel):
+    """Model representing a message within a response output.
+
+    Following OpenAI API specification for response message structure.
+
+    Attributes:
+        role: The role of the message sender (currently only "assistant" supported).
+        content: Array of content objects within the message.
+
+    Example:
+        ```python
+        message = ResponseMessage(
+            role="assistant",
+            content=[
+                ResponseContent(type="text", text="Here's information about Kubernetes...")
+            ]
+        )
+        ```
+    """
+
+    role: str = Field(
+        description="The role of the message sender",
+        examples=["assistant"],
+    )
+
+    content: list[ResponseContent] = Field(
+        description="Array of content objects within the message",
+        examples=[[{"type": "text", "text": "Response content here..."}]],
+    )
+
+    @field_validator("role")
+    @classmethod
+    def validate_role(cls, value: str) -> str:
+        """Validate that role is supported."""
+        if value != "assistant":
+            raise ValueError("Currently only 'assistant' role is supported")
+        return value
+
+    @field_validator("content")
+    @classmethod
+    def validate_content(cls, value: list[ResponseContent]) -> list[ResponseContent]:
+        """Validate that content array is not empty."""
+        if not value:
+            raise ValueError("content array cannot be empty")
+        return value
+
+
+class ResponseOutput(BaseModel):
+    """Model representing output data within a response.
+
+    Following OpenAI API specification for response output structure.
+
+    Attributes:
+        message: The message containing the response content.
+        finish_reason: The reason the response generation stopped.
+
+    Example:
+        ```python
+        output = ResponseOutput(
+            message=ResponseMessage(...),
+            finish_reason="stop"
+        )
+        ```
+    """
+
+    message: ResponseMessage = Field(
+        description="The message containing the response content",
+    )
+
+    finish_reason: str = Field(
+        description="The reason the response generation stopped",
+        examples=["stop", "length", "content_filter"],
+    )
+
+    @field_validator("finish_reason")
+    @classmethod
+    def validate_finish_reason(cls, value: str) -> str:
+        """Validate that finish_reason is a recognized value."""
+        valid_reasons = ["stop", "length", "content_filter", "tool_calls"]
+        if value not in valid_reasons:
+            raise ValueError(f"finish_reason must be one of: {valid_reasons}")
+        return value
+
+
+class ResponseUsage(BaseModel):
+    """Model representing token usage statistics for a response.
+
+    Following OpenAI API specification for usage tracking.
+
+    Attributes:
+        prompt_tokens: Number of tokens in the prompt.
+        completion_tokens: Number of tokens in the completion.
+        total_tokens: Total number of tokens used.
+
+    Example:
+        ```python
+        usage = ResponseUsage(
+            prompt_tokens=150,
+            completion_tokens=75,
+            total_tokens=225
+        )
+        ```
+    """
+
+    prompt_tokens: int = Field(
+        description="Number of tokens in the prompt",
+        examples=[150, 200],
+        ge=0,
+    )
+
+    completion_tokens: int = Field(
+        description="Number of tokens in the completion",
+        examples=[75, 100],
+        ge=0,
+    )
+
+    total_tokens: int = Field(
+        description="Total number of tokens used",
+        examples=[225, 300],
+        ge=0,
+    )
+
+
+class OpenAIResponse(BaseModel):
+    """Model representing an OpenAI-compatible response from the Responses API.
+
+    This model follows the OpenAI API specification for /v1/responses responses,
+    allowing the Lightspeed Stack to provide OpenAI-compatible responses while
+    maintaining internal RAG and LLM integration functionality.
+
+    Attributes:
+        id: Unique identifier for the response.
+        object: The object type (always "response").
+        created_at: Unix timestamp when the response was created.
+        status: The status of the response generation.
+        model: The model used to generate the response.
+        output: Array of output objects containing the response content.
+        usage: Token usage statistics for the response.
+        metadata: Optional metadata containing additional information like referenced documents.
+
+    Example:
+        ```python
+        response = OpenAIResponse(
+            id="resp_67ccd2bed1ec8190b14f964abc0542670bb6a6b452d3795b",
+            object="response",
+            created_at=1640995200,
+            status="completed",
+            model="gpt-4",
+            output=[
+                ResponseOutput(
+                    message=ResponseMessage(
+                        role="assistant",
+                        content=[ResponseContent(type="text", text="Kubernetes is...")]
+                    ),
+                    finish_reason="stop"
+                )
+            ],
+            usage=ResponseUsage(prompt_tokens=150, completion_tokens=75, total_tokens=225),
+            metadata={
+                "referenced_documents": [
+                    {
+                        "doc_url": "https://docs.openshift.com/...",
+                        "doc_title": "Kubernetes Documentation"
+                    }
+                ]
+            }
+        )
+        ```
+    """
+
+    id: str = Field(
+        description="Unique identifier for the response",
+        examples=["resp_67ccd2bed1ec8190b14f964abc0542670bb6a6b452d3795b"],
+        min_length=1,
+    )
+
+    object: str = Field(
+        description="The object type (always 'response')",
+        examples=["response"],
+    )
+
+    created_at: int = Field(
+        description="Unix timestamp when the response was created",
+        examples=[1640995200, 1641081600],
+    )
+
+    status: str = Field(
+        description="The status of the response generation",
+        examples=["completed", "failed", "in_progress"],
+    )
+
+    model: str = Field(
+        description="The model used to generate the response",
+        examples=["gpt-4", "gpt-3.5-turbo"],
+        min_length=1,
+    )
+
+    output: list[ResponseOutput] = Field(
+        description="Array of output objects containing the response content",
+    )
+
+    usage: ResponseUsage = Field(
+        description="Token usage statistics for the response",
+    )
+
+    metadata: Optional[dict[str, Any]] = Field(
+        None,
+        description="Optional metadata containing additional information like referenced documents",
+        examples=[
+            {
+                "referenced_documents": [
+                    {
+                        "doc_url": "https://docs.openshift.com/container-platform/"
+                        "4.15/operators/olm/index.html",
+                        "doc_title": "Operator Lifecycle Manager (OLM)",
+                    }
+                ]
+            }
+        ],
+    )
+
+    @field_validator("object")
+    @classmethod
+    def validate_object(cls, value: str) -> str:
+        """Validate that object type is 'response'."""
+        if value != "response":
+            raise ValueError("object must be 'response'")
+        return value
+
+    @field_validator("status")
+    @classmethod
+    def validate_status(cls, value: str) -> str:
+        """Validate that status is a recognized value."""
+        valid_statuses = ["completed", "failed", "in_progress", "cancelled"]
+        if value not in valid_statuses:
+            raise ValueError(f"status must be one of: {valid_statuses}")
+        return value
+
+    @field_validator("output")
+    @classmethod
+    def validate_output(cls, value: list[ResponseOutput]) -> list[ResponseOutput]:
+        """Validate that output array is not empty."""
+        if not value:
+            raise ValueError("output array cannot be empty")
+        return value
+
+    # provides examples for /docs endpoint
+    model_config = {
+        "json_schema_extra": {
+            "examples": [
+                {
+                    "id": "resp_67ccd2bed1ec8190b14f964abc0542670bb6a6b452d3795b",
+                    "object": "response",
+                    "created_at": 1640995200,
+                    "status": "completed",
+                    "model": "gpt-4",
+                    "output": [
+                        {
+                            "message": {
+                                "role": "assistant",
+                                "content": [
+                                    {
+                                        "type": "text",
+                                        "text": "Kubernetes is an open-source container "
+                                        "orchestration platform that automates the deployment, "
+                                        "scaling, and management of containerized applications...",
+                                    }
+                                ],
+                            },
+                            "finish_reason": "stop",
+                        }
+                    ],
+                    "usage": {
+                        "prompt_tokens": 150,
+                        "completion_tokens": 75,
+                        "total_tokens": 225,
+                    },
+                    "metadata": {
+                        "referenced_documents": [
+                            {
+                                "doc_url": "https://docs.openshift.com/container-platform/"
+                                "4.15/operators/olm/index.html",
+                                "doc_title": "Operator Lifecycle Manager (OLM)",
+                            }
+                        ]
+                    },
+                },
+                {
+                    "id": "resp_abc123def456ghi789jkl012mno345pqr678stu901vwx234",
+                    "object": "response",
+                    "created_at": 1641081600,
+                    "status": "completed",
+                    "model": "gpt-3.5-turbo",
+                    "output": [
+                        {
+                            "message": {
+                                "role": "assistant",
+                                "content": [
+                                    {
+                                        "type": "text",
+                                        "text": "Docker containers are lightweight, portable "
+                                        "packages that include everything needed to "
+                                        "run an application...",
+                                    }
+                                ],
+                            },
+                            "finish_reason": "stop",
+                        }
+                    ],
+                    "usage": {
+                        "prompt_tokens": 100,
+                        "completion_tokens": 50,
+                        "total_tokens": 150,
+                    },
+                },
+            ]
+        }
+    }
diff --git a/src/utils/openai_mapping.py b/src/utils/openai_mapping.py
new file mode 100644
index 000000000..eac2e212e
--- /dev/null
+++ b/src/utils/openai_mapping.py
@@ -0,0 +1,154 @@
+"""OpenAI API mapping utilities for the Responses API.
+
+This module provides functions to convert between OpenAI-compatible request/response
+formats and Lightspeed's internal QueryRequest/QueryResponse formats, enabling
+OpenAI API compatibility while maintaining existing RAG and LLM integration.
+"""
+
+import time
+from uuid import uuid4
+from typing import Any
+
+from models.requests import CreateResponseRequest, QueryRequest
+from models.responses import (
+    QueryResponse,
+    OpenAIResponse,
+    ResponseContent,
+    ResponseMessage,
+    ResponseOutput,
+    ResponseUsage,
+)
+
+
+def map_openai_to_query_request(openai_request: CreateResponseRequest) -> QueryRequest:
+    """Convert OpenAI CreateResponseRequest to internal QueryRequest format.
+
+    Maps OpenAI request fields to Lightspeed's internal request structure,
+    handling the conversion between OpenAI 'input' field and Lightspeed 'query' field.
+
+    Args:
+        openai_request: The OpenAI-compatible request to convert.
+
+    Returns:
+        QueryRequest: Internal Lightspeed request format.
+
+    Raises:
+        ValueError: If input format is not supported (MVP only supports string input).
+
+    Example:
+        ```python
+        openai_req = CreateResponseRequest(
+            model="gpt-4",
+            input="What is Kubernetes?"
+        )
+        query_req = map_openai_to_query_request(openai_req)
+        ```
+    """
+    # For MVP, only handle string input (arrays deferred to Phase 2)
+    if isinstance(openai_request.input, list):
+        raise ValueError("Array input not supported in MVP (Phase 1)")
+
+    # Convert OpenAI input to Lightspeed query
+    query = openai_request.input
+
+    # Map OpenAI instructions to Lightspeed system_prompt
+    system_prompt = openai_request.instructions
+
+    # For MVP, use default model/provider (explicit model mapping in Phase 2)
+    # This avoids the validation error where model requires provider
+    model = None
+    provider = None
+
+    return QueryRequest(
+        query=query,
+        system_prompt=system_prompt,
+        model=model,
+        provider=provider,
+        # MVP: Create new conversation each time (simplify conversation management)
+        conversation_id=None,
+        # MVP: Use defaults for optional fields
+        attachments=None,
+        no_tools=False,
+        media_type=None,
+    )
+
+
+def map_query_to_openai_response(
+    query_response: QueryResponse, openai_request: CreateResponseRequest
+) -> OpenAIResponse:
+    """Convert internal QueryResponse to OpenAI-compatible response format.
+
+    Maps Lightspeed's internal response structure to OpenAI API format,
+    preserving RAG document references in the metadata field.
+
+    Args:
+        query_response: The internal Lightspeed response to convert.
+        openai_request: The original OpenAI request for context.
+
+    Returns:
+        OpenAIResponse: OpenAI-compatible response format.
+
+    Example:
+        ```python
+        openai_response = map_query_to_openai_response(query_response, openai_request)
+        ```
+    """
+    # Generate unique OpenAI response ID using uuid4
+    response_id = f"resp_{uuid4().hex}"
+
+    # Set appropriate created_at timestamp
+    created_at = int(time.time())
+
+    # Create response content structure
+    content = [
+        ResponseContent(
+            type="text",
+            text=query_response.response,
+        )
+    ]
+
+    # Create response message
+    message = ResponseMessage(
+        role="assistant",
+        content=content,
+    )
+
+    # Create response output
+    output = [
+        ResponseOutput(
+            message=message,
+            finish_reason="stop",  # MVP: default to "stop"
+        )
+    ]
+
+    # Map token usage
+    usage = ResponseUsage(
+        prompt_tokens=query_response.input_tokens,
+        completion_tokens=query_response.output_tokens,
+        total_tokens=query_response.input_tokens + query_response.output_tokens,
+    )
+
+    # Map referenced documents to metadata
+    metadata: dict[str, Any] | None = None
+    if query_response.referenced_documents:
+        # Convert ReferencedDocument objects to dict format
+        referenced_docs = []
+        for doc in query_response.referenced_documents:
+            doc_dict = {
+                "doc_url": str(doc.doc_url) if doc.doc_url else None,
+                "doc_title": doc.doc_title,
+            }
+            referenced_docs.append(doc_dict)
+
+        metadata = {"referenced_documents": referenced_docs}
+
+    return OpenAIResponse(
+        id=response_id,
+        object="response",
+        created_at=created_at,
+        status="completed",  # MVP: default to "completed" for successful responses
+        model=openai_request.model,
+        output=output,
+        usage=usage,
+        metadata=metadata,
+    )
diff --git a/tests/unit/app/endpoints/test_responses.py b/tests/unit/app/endpoints/test_responses.py
new file mode 100644
index 000000000..98d827e53
--- /dev/null
+++ b/tests/unit/app/endpoints/test_responses.py
@@ -0,0 +1,372 @@
+# pylint: disable=redefined-outer-name
+
+"""Unit tests for the /responses REST API endpoint."""
+
+import pytest
+from fastapi import Request, status, HTTPException
+from llama_stack_client import APIConnectionError
+
+from app.endpoints.responses import responses_endpoint_handler
+from models.config import Action
+from models.requests import CreateResponseRequest
+from models.responses import (
+    OpenAIResponse,
+    QueryResponse,
+    ReferencedDocument,
+    ResponseContent,
+    ResponseMessage,
+    ResponseOutput,
+    ResponseUsage,
+)
+from utils.types import TurnSummary
+from utils.token_counter import TokenCounter
+
+# Mock authentication tuple (user_id, username, skip_userid_check, token)
+MOCK_AUTH = (
+    "00000001-0001-0001-0001-000000000001",
+    "mock_username",
+    False,
+    "mock_token",
+)
+
+
+@pytest.fixture
+def dummy_request() -> Request:
+    """Dummy request fixture for testing."""
+    req = Request(
+        scope={
+            "type": "http",
+        }
+    )
+    req.state.authorized_actions = set(Action)
+    return req
+
+
+@pytest.fixture
+def sample_openai_request() -> CreateResponseRequest:
+    """Sample OpenAI request for testing."""
+    return CreateResponseRequest(
+        model="gpt-4",
+        input="What is Kubernetes?",
+        instructions="You are a helpful DevOps assistant",
+        temperature=0.7,
+        max_output_tokens=150,
+    )
+
+
+@pytest.fixture
+def sample_query_response() -> QueryResponse:
+    """Sample internal QueryResponse for testing."""
+    return QueryResponse(
+        conversation_id="12345678-1234-1234-1234-123456789012",
+        response="Kubernetes is a container orchestration platform...",
+        referenced_documents=[
+            ReferencedDocument(
+                doc_url="https://docs.kubernetes.io/concepts/overview/",
+                doc_title="Kubernetes Overview",
+            )
+        ],
+        truncated=False,
+        input_tokens=10,
+        output_tokens=50,
+        available_quotas={},
+    )
+
+
+def mock_configuration_and_dependencies(mocker):
+    """Helper function to mock configuration and dependencies."""
+    # Mock configuration
+    mocker.patch("app.endpoints.responses.check_configuration_loaded")
+
+    # Mock the Llama Stack client holder
+    mock_client_holder = mocker.Mock()
+    mock_client = mocker.Mock()
+    mock_client_holder.get_client.return_value = mock_client
+    mocker.patch(
+        "app.endpoints.responses.AsyncLlamaStackClientHolder",
+        return_value=mock_client_holder,
+    )
+
+    # Mock the mapping functions
+    mock_query_request = mocker.Mock()
+    mocker.patch(
+        "app.endpoints.responses.map_openai_to_query_request",
+        return_value=mock_query_request,
+    )
+
+    mock_openai_response = OpenAIResponse(
+        id="resp_12345",
+        object="response",
+        created_at=1640995200,
+        status="completed",
+        model="gpt-4",
+        output=[
+            ResponseOutput(
+                message=ResponseMessage(
+                    role="assistant",
+                    content=[ResponseContent(type="text", text="Test response")],
+                ),
+                finish_reason="stop",
+            )
+        ],
+        usage=ResponseUsage(prompt_tokens=10, completion_tokens=50, total_tokens=60),
+        metadata={},
+    )
+    mocker.patch(
+        "app.endpoints.responses.map_query_to_openai_response",
+        return_value=mock_openai_response,
+    )
+
+    # Mock retrieve_response function
+    mock_turn_summary = TurnSummary(
+        llm_response="Kubernetes is a container orchestration platform...",
+        tool_calls=[],
+    )
+    mock_token_counter = TokenCounter(input_tokens=10, output_tokens=50)
+
+    mocker.patch(
+        "app.endpoints.responses.retrieve_response",
+        return_value=(
+            mock_turn_summary,
+            "12345678-1234-1234-1234-123456789012",
+            [],
+            mock_token_counter,
+        ),
+    )
+
+    return mock_openai_response
+
+
+class TestResponsesEndpoint:
+    """Test cases for the responses endpoint."""
+
+    async def test_successful_response(
+        self,
+        mocker,
+        dummy_request,
+        sample_openai_request,
+        sample_query_response,  # pylint: disable=unused-argument
+    ):
+        """Test successful response generation."""
+        # Mock all dependencies
+        mock_configuration_and_dependencies(mocker)
+
+        # Mock metrics
+        mocker.patch("metrics.llm_calls_failures_total")
+
+        # Call the endpoint handler
+        result = await responses_endpoint_handler(
+            request=dummy_request,
+            responses_request=sample_openai_request,
+            auth=MOCK_AUTH,
+        )
+
+        # Verify the response
+        assert isinstance(result, OpenAIResponse)
+        assert result.id == "resp_12345"
+        assert result.object == "response"
+        assert result.status == "completed"
+        assert result.model == "gpt-4"
+
+    def test_authorization_required(
+        self, mocker, dummy_request, sample_openai_request
+    ):  # pylint: disable=unused-argument
+        """Test that proper authorization is enforced."""
+        # This test verifies the decorator is applied correctly
+        # In a real application, this would be tested via integration tests
+        # For now, we just verify the function signature includes auth parameter
+        import inspect  # pylint: disable=import-outside-toplevel
+
+        sig = inspect.signature(responses_endpoint_handler)
+        assert "auth" in sig.parameters
+        assert "request" in sig.parameters
+        assert "responses_request" in sig.parameters
+
+    async def test_api_connection_error_handling(
+        self, mocker, dummy_request, sample_openai_request
+    ):
+        """Test handling of APIConnectionError."""
+        # Mock configuration
+        mocker.patch("app.endpoints.responses.check_configuration_loaded")
+
+        # Mock the Llama Stack client holder
+        mock_client_holder = mocker.Mock()
+        mock_client = mocker.Mock()
+        mock_client_holder.get_client.return_value = mock_client
+        mocker.patch(
+            "app.endpoints.responses.AsyncLlamaStackClientHolder",
+            return_value=mock_client_holder,
+        )
+
+        # Mock mapping to raise APIConnectionError during retrieve_response
+        mocker.patch("app.endpoints.responses.map_openai_to_query_request")
+        mocker.patch(
+            "app.endpoints.responses.retrieve_response",
+            side_effect=APIConnectionError(request=sample_openai_request),
+        )
+
+        # Mock metrics
+        mock_failures_metric = mocker.patch("metrics.llm_calls_failures_total")
+        mock_failures_metric.inc = mocker.Mock()
+
+        # Test that HTTPException is raised
+        with pytest.raises(HTTPException) as exc_info:
+            await responses_endpoint_handler(
+                request=dummy_request,
+                responses_request=sample_openai_request,
+                auth=MOCK_AUTH,
+            )
+
+        # Verify the exception details
+        assert exc_info.value.status_code == status.HTTP_500_INTERNAL_SERVER_ERROR
+        assert "Unable to connect to Llama Stack" in str(exc_info.value.detail)
+
+        # Verify metrics were updated
+        mock_failures_metric.inc.assert_called_once()
+
+    async def test_request_mapping_called_correctly(
+        self, mocker, dummy_request, sample_openai_request
+    ):
+        """Test that OpenAI request is mapped to internal QueryRequest correctly."""
+        # Mock all dependencies
+        mock_configuration_and_dependencies(mocker)
+
+        # Mock metrics
+        mocker.patch("metrics.llm_calls_failures_total")
+
+        # Get the mock for mapping function
+        mock_mapping_func = mocker.patch(
+            "app.endpoints.responses.map_openai_to_query_request"
+        )
+
+        # Call the endpoint
+        await responses_endpoint_handler(
+            request=dummy_request,
+            responses_request=sample_openai_request,
+            auth=MOCK_AUTH,
+        )
+
+        # Verify the mapping function was called with correct arguments
+        mock_mapping_func.assert_called_once_with(sample_openai_request)
+
+    async def test_response_mapping_called_correctly(
+        self,
+        mocker,
+        dummy_request,
+        sample_openai_request,
+        sample_query_response,  # pylint: disable=unused-argument
+    ):
+        """Test that internal response is mapped to OpenAI format correctly."""
+        # Mock all dependencies
+        mock_configuration_and_dependencies(mocker)
+
+        # Mock metrics
+        mocker.patch("metrics.llm_calls_failures_total")
+
+        # Get the mock for response mapping function
+        mock_response_mapping = mocker.patch(
+            "app.endpoints.responses.map_query_to_openai_response"
+        )
+
+        # Call the endpoint
+        await responses_endpoint_handler(
+            request=dummy_request,
+            responses_request=sample_openai_request,
+            auth=MOCK_AUTH,
+        )
+
+        # The response mapping should be called (exact arguments depend on implementation)
+        assert mock_response_mapping.called
+
+    async def test_validation_error_handling(
+        self, mocker, dummy_request, sample_openai_request
+    ):
+        """Test handling of validation errors (ValueError, AttributeError, TypeError)."""
+        # Mock configuration
+        mocker.patch("app.endpoints.responses.check_configuration_loaded")
+
+        # Mock the mapping function to raise ValueError
+        mocker.patch(
+            "app.endpoints.responses.map_openai_to_query_request",
+            side_effect=ValueError("Invalid input format"),
+        )
+
+        # Test that HTTPException with 422 status is raised
+        with pytest.raises(HTTPException) as exc_info:
+            await responses_endpoint_handler(
+                request=dummy_request,
+                responses_request=sample_openai_request,
+                auth=MOCK_AUTH,
+            )
+
+        # Verify the exception details
+        assert exc_info.value.status_code == status.HTTP_422_UNPROCESSABLE_ENTITY
+        assert "Unable to process this request" in str(exc_info.value.detail)
+        assert "Invalid input format" in str(exc_info.value.detail)
+
+    async def test_attribute_error_handling(
+        self, mocker, dummy_request, sample_openai_request
+    ):
+        """Test handling of AttributeError during processing."""
+        # Mock configuration
+        mocker.patch("app.endpoints.responses.check_configuration_loaded")
+
+        # Mock the Llama Stack client holder
+        mock_client_holder = mocker.Mock()
+        mock_client = mocker.Mock()
+        mock_client_holder.get_client.return_value = mock_client
+        mocker.patch(
+            "app.endpoints.responses.AsyncLlamaStackClientHolder",
+            return_value=mock_client_holder,
+        )
+
+        # Mock the mapping functions to work
+        mocker.patch("app.endpoints.responses.map_openai_to_query_request")
+
+        # Mock retrieve_response to raise AttributeError
+        mocker.patch(
+            "app.endpoints.responses.retrieve_response",
+            side_effect=AttributeError("Missing required attribute"),
+        )
+
+        # Test that HTTPException with 422 status is raised
+        with pytest.raises(HTTPException) as exc_info:
+            await responses_endpoint_handler(
+                request=dummy_request,
+                responses_request=sample_openai_request,
+                auth=MOCK_AUTH,
+            )
+
+        # Verify the exception details
+        assert exc_info.value.status_code == status.HTTP_422_UNPROCESSABLE_ENTITY
+        assert "Unable to process this request" in str(exc_info.value.detail)
+        assert "Missing required attribute" in str(exc_info.value.detail)
+
+    async def test_type_error_handling(
+        self, mocker, dummy_request, sample_openai_request
+    ):
+        """Test handling of TypeError during response mapping."""
+        # Mock configuration and dependencies
+        mock_configuration_and_dependencies(mocker)
+
+        # Mock the response mapping function to raise TypeError
+        mocker.patch(
+            "app.endpoints.responses.map_query_to_openai_response",
+            side_effect=TypeError("Type conversion error"),
+        )
+
+        # Test that HTTPException with 422 status is raised
+        with pytest.raises(HTTPException) as exc_info:
+            await responses_endpoint_handler(
+                request=dummy_request,
+                responses_request=sample_openai_request,
+                auth=MOCK_AUTH,
+            )
+
+        # Verify the exception details
+        assert exc_info.value.status_code == status.HTTP_422_UNPROCESSABLE_ENTITY
+        assert "Unable to process this request" in str(exc_info.value.detail)
+        assert "Type conversion error" in str(exc_info.value.detail)
+
+
+# Note: These tests cover the error handling scenarios added in Task 3.4
diff --git a/tests/unit/app/test_routers.py b/tests/unit/app/test_routers.py
index e466fca44..fa1a65272 100644
--- a/tests/unit/app/test_routers.py
+++ b/tests/unit/app/test_routers.py
@@ -22,6 +22,7 @@
     authorized,
     metrics,
     tools,
+    responses,
 )  # noqa:E402
 
 
@@ -64,7 +65,7 @@ def test_include_routers() -> None:
     include_routers(app)
 
     # are all routers added?
-    assert len(app.routers) == 15
+    assert len(app.routers) == 16
     assert root.router in app.get_routers()
     assert info.router in app.get_routers()
     assert models.router in app.get_routers()
@@ -73,6 +74,7 @@ def test_include_routers() -> None:
     assert providers.router in app.get_routers()
     assert query.router in app.get_routers()
     assert streaming_query.router in app.get_routers()
+    assert responses.router in app.get_routers()
     assert config.router in app.get_routers()
     assert feedback.router in app.get_routers()
     assert health.router in app.get_routers()
@@ -88,7 +90,7 @@ def test_check_prefixes() -> None:
     include_routers(app)
 
     # are all routers added?
-    assert len(app.routers) == 15
+    assert len(app.routers) == 16
     assert app.get_router_prefix(root.router) == ""
     assert app.get_router_prefix(info.router) == "/v1"
     assert app.get_router_prefix(models.router) == "/v1"
@@ -97,6 +99,7 @@ def test_check_prefixes() -> None:
     assert app.get_router_prefix(providers.router) == "/v1"
     assert app.get_router_prefix(query.router) == "/v1"
     assert app.get_router_prefix(streaming_query.router) == "/v1"
+    assert app.get_router_prefix(responses.router) == "/v1"
     assert app.get_router_prefix(config.router) == "/v1"
     assert app.get_router_prefix(feedback.router) == "/v1"
     assert app.get_router_prefix(health.router) == ""
diff --git a/tests/unit/authorization/test_resolvers.py b/tests/unit/authorization/test_resolvers.py
index 138d4ca46..1d756a92d 100644
--- a/tests/unit/authorization/test_resolvers.py
+++ b/tests/unit/authorization/test_resolvers.py
@@ -340,3 +340,23 @@ def test_get_actions_for_regular_users(self, multi_role_access_rules):
         resolver = GenericAccessResolver(multi_role_access_rules)
         actions = resolver.get_actions({"user", "moderator"})
         assert actions == {Action.QUERY, Action.GET_MODELS, Action.FEEDBACK}
+
+    async def test_responses_action_authorization(self):
+        """Test that RESPONSES action can be used in authorization rules."""
+        access_rules = [
+            AccessRule(role="api_user", actions=[Action.RESPONSES, Action.QUERY])
+        ]
+        resolver = GenericAccessResolver(access_rules)
+
+        # Test access granted for RESPONSES action
+        has_access = resolver.check_access(Action.RESPONSES, {"api_user"})
+        assert has_access is True
+
+        # Test access denied for different action
+        has_access = resolver.check_access(Action.FEEDBACK, {"api_user"})
+        assert has_access is False
+
+        # Test RESPONSES action is included in user's actions
+        actions = resolver.get_actions({"api_user"})
+        assert Action.RESPONSES in actions
+        assert Action.QUERY in actions
diff --git a/tests/unit/test_openai_mapping.py b/tests/unit/test_openai_mapping.py
new file mode 100644
index 000000000..ea76207f7
--- /dev/null
+++ b/tests/unit/test_openai_mapping.py
@@ -0,0 +1,383 @@
+"""Unit tests for OpenAI API mapping utilities."""
+
+from unittest.mock import patch
+
+import pytest
+from pydantic import AnyUrl
+
+from models.requests import CreateResponseRequest, QueryRequest
+from models.responses import (
+    QueryResponse,
+    OpenAIResponse,
+    ReferencedDocument,
+    ResponseContent,
+    ResponseMessage,
+    ResponseOutput,
+    ResponseUsage,
+)
+from utils.openai_mapping import (
+    map_openai_to_query_request,
+    map_query_to_openai_response,
+)
+
+
+class TestMapOpenAIToQueryRequest:
+    """Test cases for map_openai_to_query_request function."""
+
+    def test_map_openai_to_query_request_minimal(self) -> None:
+        """Test mapping with minimal OpenAI request."""
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="What is Kubernetes?",
+        )
+
+        query_request = map_openai_to_query_request(openai_request)
+
+        assert isinstance(query_request, QueryRequest)
+        assert query_request.query == "What is Kubernetes?"
+        assert query_request.model is None  # MVP: use default model
+        assert query_request.provider is None  # MVP: use default provider
+        assert query_request.system_prompt is None
+        assert query_request.conversation_id is None  # MVP: new conversation each time
+        assert query_request.attachments is None
+        assert query_request.no_tools is False
+        assert query_request.media_type is None
+
+    def test_map_openai_to_query_request_with_instructions(self) -> None:
+        """Test mapping with OpenAI instructions to system_prompt."""
+        openai_request = CreateResponseRequest(
+            model="gpt-3.5-turbo",
+            input="Explain Docker containers",
+            instructions="You are a helpful DevOps assistant",
+        )
+
+        query_request = map_openai_to_query_request(openai_request)
+
+        assert query_request.query == "Explain Docker containers"
+        assert query_request.model is None  # MVP: use default model
+        assert query_request.system_prompt == "You are a helpful DevOps assistant"
+
+    def test_map_openai_to_query_request_with_all_fields(self) -> None:
+        """Test mapping with all OpenAI request fields."""
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="What are containers?",
+            instructions="You are an expert system administrator",
+            temperature=0.7,
+            max_output_tokens=1000,
+        )
+
+        query_request = map_openai_to_query_request(openai_request)
+
+        assert query_request.query == "What are containers?"
+        assert query_request.model is None  # MVP: use default model
+        assert query_request.system_prompt == "You are an expert system administrator"
+        # Note: temperature and max_output_tokens are OpenAI-specific
+        # and not mapped to QueryRequest in MVP
+
+    def test_map_openai_to_query_request_array_input_raises_error(self) -> None:
+        """Test that array input raises ValueError in MVP."""
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input=["What is Kubernetes?", "Explain Docker"],
+        )
+
+        with pytest.raises(ValueError, match="Array input not supported in MVP"):
+            map_openai_to_query_request(openai_request)
+
+    def test_map_openai_to_query_request_empty_instructions(self) -> None:
+        """Test mapping with empty instructions."""
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="What is Kubernetes?",
+            instructions="",
+        )
+
+        query_request = map_openai_to_query_request(openai_request)
+
+        assert query_request.system_prompt == ""
+
+
+class TestMapQueryToOpenAIResponse:
+    """Test cases for map_query_to_openai_response function."""
+
+    def test_map_query_to_openai_response_minimal(self) -> None:
+        """Test mapping with minimal QueryResponse."""
+        query_response = QueryResponse(
+            conversation_id="12345678-1234-5678-9012-123456789012",
+            response="Kubernetes is an open-source container orchestration platform.",
+            input_tokens=50,
+            output_tokens=25,
+        )
+
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="What is Kubernetes?",
+        )
+
+        with (
+            patch("utils.openai_mapping.uuid4") as mock_uuid4,
+            patch("utils.openai_mapping.time.time") as mock_time,
+        ):
+            mock_uuid4.return_value.hex = "abc123def456ghi789"
+            mock_time.return_value = 1640995200
+
+            openai_response = map_query_to_openai_response(
+                query_response, openai_request
+            )
+
+        assert isinstance(openai_response, OpenAIResponse)
+        assert openai_response.id == "resp_abc123def456ghi789"
+        assert openai_response.object == "response"
+        assert openai_response.created_at == 1640995200
+        assert openai_response.status == "completed"
+        assert openai_response.model == "gpt-4"
+
+        # Check output structure
+        assert len(openai_response.output) == 1
+        output = openai_response.output[0]
+        assert isinstance(output, ResponseOutput)
+        assert output.finish_reason == "stop"
+
+        # Check message structure
+        message = output.message
+        assert isinstance(message, ResponseMessage)
+        assert message.role == "assistant"
+        assert len(message.content) == 1
+
+        # Check content structure
+        content = message.content[0]
+        assert isinstance(content, ResponseContent)
+        assert content.type == "text"
+        assert (
+            content.text
+            == "Kubernetes is an open-source container orchestration platform."
+        )
+
+        # Check usage
+        usage = openai_response.usage
+        assert isinstance(usage, ResponseUsage)
+        assert getattr(usage, "prompt_tokens") == 50
+        assert getattr(usage, "completion_tokens") == 25
+        assert getattr(usage, "total_tokens") == 75
+
+        # No metadata for minimal response
+        assert openai_response.metadata is None
+
+    def test_map_query_to_openai_response_with_referenced_documents(self) -> None:
+        """Test mapping with referenced documents in metadata."""
+        referenced_docs = [
+            ReferencedDocument(
+                doc_url=AnyUrl(
+                    "https://docs.openshift.com/container-platform/4.15/operators/olm/index.html"
+                ),
+                doc_title="Operator Lifecycle Manager (OLM)",
+            ),
+            ReferencedDocument(
+                doc_url=AnyUrl("https://kubernetes.io/docs/concepts/"),
+                doc_title="Kubernetes Concepts",
+            ),
+        ]
+
+        query_response = QueryResponse(
+            conversation_id="12345678-1234-5678-9012-123456789012",
+            response="OpenShift operators use OLM for lifecycle management.",
+            referenced_documents=referenced_docs,
+            input_tokens=100,
+            output_tokens=50,
+        )
+
+        openai_request = CreateResponseRequest(
+            model="gpt-3.5-turbo",
+            input="Tell me about OpenShift operators",
+        )
+
+        with (
+            patch("utils.openai_mapping.uuid4") as mock_uuid4,
+            patch("utils.openai_mapping.time.time") as mock_time,
+        ):
+            mock_uuid4.return_value.hex = "def456ghi789jkl012"
+            mock_time.return_value = 1641081600
+
+            openai_response = map_query_to_openai_response(
+                query_response, openai_request
+            )
+
+        # Check metadata with referenced documents
+        assert openai_response.metadata is not None
+        assert "referenced_documents" in openai_response.metadata
+        ref_docs = openai_response.metadata["referenced_documents"]
+        assert len(ref_docs) == 2
+
+        # Check first document
+        first_doc = ref_docs[0]
+        assert (
+            first_doc["doc_url"]
+            == "https://docs.openshift.com/container-platform/4.15/operators/olm/index.html"
+        )
+        assert first_doc["doc_title"] == "Operator Lifecycle Manager (OLM)"
+
+        # Check second document
+        second_doc = ref_docs[1]
+        assert second_doc["doc_url"] == "https://kubernetes.io/docs/concepts/"
+        assert second_doc["doc_title"] == "Kubernetes Concepts"
+
+    def test_map_query_to_openai_response_with_none_doc_url(self) -> None:
+        """Test mapping with referenced document that has None URL."""
+        referenced_docs = [
+            ReferencedDocument(
+                doc_url=None,
+                doc_title="Internal Documentation",
+            ),
+        ]
+
+        query_response = QueryResponse(
+            response="Here's some internal information.",
+            referenced_documents=referenced_docs,
+            input_tokens=20,
+            output_tokens=10,
+        )
+
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="Tell me about internal docs",
+        )
+
+        openai_response = map_query_to_openai_response(query_response, openai_request)
+
+        # Check metadata with None URL
+        assert openai_response.metadata is not None
+        ref_docs = openai_response.metadata["referenced_documents"]
+        assert len(ref_docs) == 1
+        assert ref_docs[0]["doc_url"] is None
+        assert ref_docs[0]["doc_title"] == "Internal Documentation"
+
+    def test_map_query_to_openai_response_empty_referenced_documents(self) -> None:
+        """Test mapping with empty referenced documents list."""
+        query_response = QueryResponse(
+            response="Generic response without references.",
+            referenced_documents=[],  # Empty list
+            input_tokens=30,
+            output_tokens=15,
+        )
+
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="Generic question",
+        )
+
+        openai_response = map_query_to_openai_response(query_response, openai_request)
+
+        # Empty list should not create metadata
+        assert openai_response.metadata is None
+
+    def test_map_query_to_openai_response_id_generation(self) -> None:
+        """Test that response ID is properly generated with uuid4."""
+        query_response = QueryResponse(
+            response="Test response.",
+            input_tokens=10,
+            output_tokens=5,
+        )
+
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="Test input",
+        )
+
+        # Test multiple calls generate different IDs
+        with patch("utils.openai_mapping.uuid4") as mock_uuid4:
+            mock_uuid4.side_effect = [
+                type("MockUUID", (), {"hex": "first_uuid"})(),
+                type("MockUUID", (), {"hex": "second_uuid"})(),
+            ]
+
+            response1 = map_query_to_openai_response(query_response, openai_request)
+            response2 = map_query_to_openai_response(query_response, openai_request)
+
+            assert response1.id == "resp_first_uuid"
+            assert response2.id == "resp_second_uuid"
+            assert response1.id != response2.id
+
+    def test_map_query_to_openai_response_timestamp_generation(self) -> None:
+        """Test that created_at timestamp is properly generated."""
+        query_response = QueryResponse(
+            response="Test response.",
+            input_tokens=10,
+            output_tokens=5,
+        )
+
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="Test input",
+        )
+
+        # Mock time to verify timestamp generation
+        with patch("utils.openai_mapping.time.time") as mock_time:
+            mock_time.return_value = 1234567890.5
+
+            openai_response = map_query_to_openai_response(
+                query_response, openai_request
+            )
+
+            assert openai_response.created_at == 1234567890  # Should be int
+
+    def test_map_query_to_openai_response_token_calculation(self) -> None:
+        """Test token usage calculation."""
+        query_response = QueryResponse(
+            response="Response with token counts.",
+            input_tokens=150,
+            output_tokens=75,
+        )
+
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="Calculate tokens",
+        )
+
+        openai_response = map_query_to_openai_response(query_response, openai_request)
+
+        usage = openai_response.usage
+        assert getattr(usage, "prompt_tokens") == 150
+        assert getattr(usage, "completion_tokens") == 75
+        assert getattr(usage, "total_tokens") == 225  # 150 + 75
+
+    def test_map_query_to_openai_response_zero_tokens(self) -> None:
+        """Test mapping with zero token counts."""
+        query_response = QueryResponse(
+            response="Response with no tokens.",
+            input_tokens=0,
+            output_tokens=0,
+        )
+
+        openai_request = CreateResponseRequest(
+            model="gpt-4",
+            input="Zero tokens",
+        )
+
+        openai_response = map_query_to_openai_response(query_response, openai_request)
+
+        usage = openai_response.usage
+        assert getattr(usage, "prompt_tokens") == 0
+        assert getattr(usage, "completion_tokens") == 0
+        assert getattr(usage, "total_tokens") == 0
+
+    def test_map_query_to_openai_response_model_preservation(self) -> None:
+        """Test that the model from the original request is preserved."""
+        query_response = QueryResponse(
+            response="Test response.",
+            input_tokens=10,
+            output_tokens=5,
+        )
+
+        models_to_test = ["gpt-4", "gpt-3.5-turbo", "custom-model-name"]
+
+        for model in models_to_test:
+            openai_request = CreateResponseRequest(
+                model=model,
+                input="Test input",
+            )
+
+            openai_response = map_query_to_openai_response(
+                query_response, openai_request
+            )
+            assert openai_response.model == model
diff --git a/tests/unit/test_openai_requests.py b/tests/unit/test_openai_requests.py
new file mode 100644
index 000000000..2f8f167e2
--- /dev/null
+++ b/tests/unit/test_openai_requests.py
@@ -0,0 +1,140 @@
+"""Unit tests for OpenAI request models."""
+
+import pytest
+from pydantic import ValidationError
+
+from models.requests import CreateResponseRequest
+
+
+class TestCreateResponseRequest:
+    """Test cases for CreateResponseRequest model."""
+
+    def test_create_response_request_minimal_valid_request(self) -> None:
+        """Test CreateResponseRequest with minimal required fields."""
+        request = CreateResponseRequest(model="gpt-4", input="What is Kubernetes?")
+
+        assert request.model == "gpt-4"
+        assert request.input == "What is Kubernetes?"
+        assert request.instructions is None
+        assert request.temperature is None
+        assert request.max_output_tokens is None
+
+    def test_create_response_request_with_all_fields(self) -> None:
+        """Test CreateResponseRequest with all fields populated."""
+        request = CreateResponseRequest(
+            model="gpt-4",
+            input="Explain Docker containers",
+            instructions="You are a helpful DevOps assistant",
+            temperature=0.7,
+            max_output_tokens=1000,
+        )
+
+        assert request.model == "gpt-4"
+        assert request.input == "Explain Docker containers"
+        assert request.instructions == "You are a helpful DevOps assistant"
+        assert request.temperature == 0.7
+        assert request.max_output_tokens == 1000
+
+    def test_create_response_request_missing_model_field(self) -> None:
+        """Test CreateResponseRequest fails when model field is missing."""
+        with pytest.raises(ValidationError, match="model"):
+            CreateResponseRequest(input="What is Kubernetes?")
+
+    def test_create_response_request_missing_input_field(self) -> None:
+        """Test CreateResponseRequest fails when input field is missing."""
+        with pytest.raises(ValidationError, match="input"):
+            CreateResponseRequest(model="gpt-4")
+
+    def test_create_response_request_empty_model(self) -> None:
+        """Test CreateResponseRequest fails with empty model string."""
+        with pytest.raises(ValidationError):
+            CreateResponseRequest(model="", input="What is Kubernetes?")
+
+    def test_create_response_request_empty_input(self) -> None:
+        """Test CreateResponseRequest fails with empty input string."""
+        with pytest.raises(ValidationError):
+            CreateResponseRequest(model="gpt-4", input="")
+
+    def test_create_response_request_temperature_validation_low(self) -> None:
+        """Test CreateResponseRequest temperature validation for values below 0."""
+        with pytest.raises(ValidationError, match="temperature"):
+            CreateResponseRequest(
+                model="gpt-4", input="What is Kubernetes?", temperature=-0.1
+            )
+
+    def test_create_response_request_temperature_validation_high(self) -> None:
+        """Test CreateResponseRequest temperature validation for values above 2."""
+        with pytest.raises(ValidationError, match="temperature"):
+            CreateResponseRequest(
+                model="gpt-4", input="What is Kubernetes?", temperature=2.1
+            )
+
+    def test_create_response_request_temperature_validation_valid_range(self) -> None:
+        """Test CreateResponseRequest temperature validation for valid range."""
+        # Test boundary values
+        request_zero = CreateResponseRequest(
+            model="gpt-4", input="What is Kubernetes?", temperature=0.0
+        )
+        assert request_zero.temperature == 0.0
+
+        request_two = CreateResponseRequest(
+            model="gpt-4", input="What is Kubernetes?", temperature=2.0
+        )
+        assert request_two.temperature == 2.0
+
+        request_mid = CreateResponseRequest(
+            model="gpt-4", input="What is Kubernetes?", temperature=1.0
+        )
+        assert request_mid.temperature == 1.0
+
+    def test_create_response_request_max_output_tokens_validation(self) -> None:
+        """Test CreateResponseRequest max_output_tokens validation."""
+        # Test valid positive value
+        request = CreateResponseRequest(
+            model="gpt-4", input="What is Kubernetes?", max_output_tokens=1000
+        )
+        assert request.max_output_tokens == 1000
+
+        # Test invalid negative value
+        with pytest.raises(ValidationError, match="max_output_tokens"):
+            CreateResponseRequest(
+                model="gpt-4", input="What is Kubernetes?", max_output_tokens=-1
+            )
+
+        # Test invalid zero value
+        with pytest.raises(ValidationError, match="max_output_tokens"):
+            CreateResponseRequest(
+                model="gpt-4", input="What is Kubernetes?", max_output_tokens=0
+            )
+
+    def test_create_response_request_extra_fields_forbidden(self) -> None:
+        """Test CreateResponseRequest rejects extra fields."""
+        with pytest.raises(ValidationError, match="Extra inputs are not permitted"):
+            CreateResponseRequest(
+                model="gpt-4",
+                input="What is Kubernetes?",
+                unknown_field="should_fail",  # type: ignore[call-arg]
+            )
+
+    def test_create_response_request_input_array_type(self) -> None:
+        """Test CreateResponseRequest with input as array (list)."""
+        request = CreateResponseRequest(
+            model="gpt-4", input=["What is Kubernetes?", "Explain Docker"]
+        )
+
+        assert request.model == "gpt-4"
+        assert request.input == ["What is Kubernetes?", "Explain Docker"]
+
+    def test_create_response_request_input_array_empty(self) -> None:
+        """Test CreateResponseRequest fails with empty array input."""
+        with pytest.raises(ValidationError):
+            CreateResponseRequest(model="gpt-4", input=[])
+
+    def test_create_response_request_model_config_examples(self) -> None:
+        """Test that CreateResponseRequest has proper model_config with examples."""
+        # This test verifies the model is configured correctly for OpenAPI docs
+        assert hasattr(CreateResponseRequest, "model_config")
+        config = CreateResponseRequest.model_config
+        assert "json_schema_extra" in config
+        assert "examples" in config["json_schema_extra"]
+        assert len(config["json_schema_extra"]["examples"]) > 0
diff --git a/tests/unit/test_openai_response_models.py b/tests/unit/test_openai_response_models.py
new file mode 100644
index 000000000..d53cbba31
--- /dev/null
+++ b/tests/unit/test_openai_response_models.py
@@ -0,0 +1,266 @@
+"""Unit tests for OpenAI response models."""
+
+import pytest
+from pydantic import ValidationError
+
+from models.responses import (
+    OpenAIResponse,
+    ResponseOutput,
+    ResponseMessage,
+    ResponseContent,
+    ResponseUsage,
+)
+
+
+class TestResponseContent:
+    """Test cases for ResponseContent model."""
+
+    def test_response_content_text_valid(self):
+        """Test creating ResponseContent with valid text type."""
+        content = ResponseContent(type="text", text="This is a test response")
+        assert content.type == "text"
+        assert content.text == "This is a test response"
+
+    def test_response_content_text_missing_text_field(self):
+        """Test that text type requires text field."""
+        with pytest.raises(ValidationError):
+            ResponseContent(type="text")
+
+    def test_response_content_text_empty_text(self):
+        """Test that text field cannot be empty for text type."""
+        with pytest.raises(ValidationError):
+            ResponseContent(type="text", text="")
+
+    def test_response_content_invalid_type(self):
+        """Test that invalid content type raises ValidationError."""
+        with pytest.raises(ValidationError):
+            ResponseContent(type="invalid_type", text="test")
+
+
+class TestResponseMessage:
+    """Test cases for ResponseMessage model."""
+
+    def test_response_message_valid(self):
+        """Test creating ResponseMessage with valid content."""
+        content = ResponseContent(type="text", text="Test response")
+        message = ResponseMessage(role="assistant", content=[content])
+        assert message.role == "assistant"
+        assert len(message.content) == 1
+        assert message.content[0].text == "Test response"
+
+    def test_response_message_invalid_role(self):
+        """Test that invalid role raises ValidationError."""
+        content = ResponseContent(type="text", text="Test response")
+        with pytest.raises(ValidationError):
+            ResponseMessage(role="invalid_role", content=[content])
+
+    def test_response_message_empty_content(self):
+        """Test that empty content array raises ValidationError."""
+        with pytest.raises(ValidationError):
+            ResponseMessage(role="assistant", content=[])
+
+
+class TestResponseOutput:
+    """Test cases for ResponseOutput model."""
+
+    def test_response_output_valid(self):
+        """Test creating ResponseOutput with valid message."""
+        content = ResponseContent(type="text", text="Test response")
+        message = ResponseMessage(role="assistant", content=[content])
+        output = ResponseOutput(message=message, finish_reason="stop")
+        assert output.message.role == "assistant"  # pylint: disable=no-member
+        assert output.finish_reason == "stop"
+
+    def test_response_output_invalid_finish_reason(self):
+        """Test that invalid finish_reason raises ValidationError."""
+        content = ResponseContent(type="text", text="Test response")
+        message = ResponseMessage(role="assistant", content=[content])
+        with pytest.raises(ValidationError):
+            ResponseOutput(message=message, finish_reason="invalid_reason")
+
+
+class TestResponseUsage:
+    """Test cases for ResponseUsage model."""
+
+    def test_response_usage_valid(self):
+        """Test creating ResponseUsage with valid token counts."""
+        usage = ResponseUsage(prompt_tokens=100, completion_tokens=50, total_tokens=150)
+        assert usage.prompt_tokens == 100
+        assert usage.completion_tokens == 50
+        assert usage.total_tokens == 150
+
+    def test_response_usage_negative_tokens(self):
+        """Test that negative token counts raise ValidationError."""
+        with pytest.raises(ValidationError):
+            ResponseUsage(prompt_tokens=-1, completion_tokens=50, total_tokens=150)
+
+    def test_response_usage_zero_tokens(self):
+        """Test that zero token counts are allowed."""
+        usage = ResponseUsage(prompt_tokens=0, completion_tokens=0, total_tokens=0)
+        assert usage.prompt_tokens == 0
+        assert usage.completion_tokens == 0
+        assert usage.total_tokens == 0
+
+    def test_response_usage_total_tokens_mismatch(self):
+        """Test that total_tokens should match sum when validation is implemented."""
+        # This is a placeholder - we may add validation later
+        usage = ResponseUsage(
+            prompt_tokens=100,
+            completion_tokens=50,
+            total_tokens=200,  # Intentionally wrong sum
+        )
+        # Currently no validation, but we might add it later
+        assert usage.total_tokens == 200  # pylint: disable=no-member
+
+
+class TestOpenAIResponse:
+    """Test cases for OpenAIResponse model."""
+
+    def test_openai_response_valid_minimal(self):
+        """Test creating OpenAIResponse with minimal required fields."""
+        content = ResponseContent(type="text", text="Test response")
+        message = ResponseMessage(role="assistant", content=[content])
+        output = ResponseOutput(message=message, finish_reason="stop")
+        usage = ResponseUsage(prompt_tokens=100, completion_tokens=50, total_tokens=150)
+
+        response = OpenAIResponse(
+            id="resp_123",
+            object="response",
+            created_at=1640995200,
+            status="completed",
+            model="gpt-4",
+            output=[output],
+            usage=usage,
+        )
+
+        assert response.id == "resp_123"
+        assert response.object == "response"
+        assert response.created_at == 1640995200
+        assert response.status == "completed"
+        assert response.model == "gpt-4"
+        assert len(response.output) == 1
+        assert response.usage.total_tokens == 150  # pylint: disable=no-member
+        assert response.metadata is None
+
+    def test_openai_response_with_metadata(self):
+        """Test creating OpenAIResponse with metadata for referenced documents."""
+        content = ResponseContent(type="text", text="Test response")
+        message = ResponseMessage(role="assistant", content=[content])
+        output = ResponseOutput(message=message, finish_reason="stop")
+        usage = ResponseUsage(prompt_tokens=100, completion_tokens=50, total_tokens=150)
+
+        metadata = {
+            "referenced_documents": [
+                {
+                    "doc_url": "https://docs.openshift.com/container-platform/"
+                    "4.15/operators/olm/index.html",
+                    "doc_title": "Operator Lifecycle Manager (OLM)",
+                }
+            ]
+        }
+
+        response = OpenAIResponse(
+            id="resp_123",
+            object="response",
+            created_at=1640995200,
+            status="completed",
+            model="gpt-4",
+            output=[output],
+            usage=usage,
+            metadata=metadata,
+        )
+
+        assert response.metadata is not None
+        assert "referenced_documents" in response.metadata
+        assert len(response.metadata["referenced_documents"]) == 1
+        assert (
+            response.metadata["referenced_documents"][0]["doc_title"]
+            == "Operator Lifecycle Manager (OLM)"
+        )
+
+    def test_openai_response_invalid_status(self):
+        """Test that invalid status raises ValidationError."""
+        content = ResponseContent(type="text", text="Test response")
+        message = ResponseMessage(role="assistant", content=[content])
+        output = ResponseOutput(message=message, finish_reason="stop")
+        usage = ResponseUsage(prompt_tokens=100, completion_tokens=50, total_tokens=150)
+
+        with pytest.raises(ValidationError):
+            OpenAIResponse(
+                id="resp_123",
+                object="response",
+                created_at=1640995200,
+                status="invalid_status",
+                model="gpt-4",
+                output=[output],
+                usage=usage,
+            )
+
+    def test_openai_response_invalid_object(self):
+        """Test that invalid object type raises ValidationError."""
+        content = ResponseContent(type="text", text="Test response")
+        message = ResponseMessage(role="assistant", content=[content])
+        output = ResponseOutput(message=message, finish_reason="stop")
+        usage = ResponseUsage(prompt_tokens=100, completion_tokens=50, total_tokens=150)
+
+        with pytest.raises(ValidationError):
+            OpenAIResponse(
+                id="resp_123",
+                object="invalid_object",
+                created_at=1640995200,
+                status="completed",
+                model="gpt-4",
+                output=[output],
+                usage=usage,
+            )
+
+    def test_openai_response_empty_output(self):
+        """Test that empty output array raises ValidationError."""
+        usage = ResponseUsage(prompt_tokens=100, completion_tokens=50, total_tokens=150)
+
+        with pytest.raises(ValidationError):
+            OpenAIResponse(
+                id="resp_123",
+                object="response",
+                created_at=1640995200,
+                status="completed",
+                model="gpt-4",
+                output=[],
+                usage=usage,
+            )
+
+    def test_openai_response_empty_id(self):
+        """Test that empty ID raises ValidationError."""
+        content = ResponseContent(type="text", text="Test response")
+        message = ResponseMessage(role="assistant", content=[content])
+        output = ResponseOutput(message=message, finish_reason="stop")
+        usage = ResponseUsage(prompt_tokens=100, completion_tokens=50, total_tokens=150)
+
+        with pytest.raises(ValidationError):
+            OpenAIResponse(
+                id="",
+                object="response",
+                created_at=1640995200,
+                status="completed",
+                model="gpt-4",
+                output=[output],
+                usage=usage,
+            )
+
+    def test_openai_response_empty_model(self):
+        """Test that empty model raises ValidationError."""
+        content = ResponseContent(type="text", text="Test response")
+        message = ResponseMessage(role="assistant", content=[content])
+        output = ResponseOutput(message=message, finish_reason="stop")
+        usage = ResponseUsage(prompt_tokens=100, completion_tokens=50, total_tokens=150)
+
+        with pytest.raises(ValidationError):
+            OpenAIResponse(
+                id="resp_123",
+                object="response",
+                created_at=1640995200,
+                status="completed",
+                model="",
+                output=[output],
+                usage=usage,
+            )