안지은 (Jieun Ahn)

AI · 데이터 엔지니어링

사람과 기계가 데이터를 쉽고 간편하게 사용할 수 있는 환경을 만드는 것에 관심이 있습니다.

📍 Seoul, Korea✉️ aje20010827@gmail.com

About

믿을 수 있는 데이터가 어떻게 만들어지고 구조를 갖추는지에 관심이 많습니다. 특히 공공 데이터가 실제로 쓸 만한 품질을 갖추려면 어떤 게 필요한지, 데이터 품질을 어떻게 정의하고 측정하는지 같은 문제를 오래 파고들어 왔습니다. W3C DQV, AIRD(AI Ready Data) 같은 데이터 품질 표준을 현장 데이터에 적용하는 것에 관심이 있고, 출처가 서로 다른 이기종 데이터를 어떻게 일관되게 연결하고 정규화하는 프로젝트를 주로 진행해왔습니다. 데이터를 단순히 정제하는 데서 그치지 않고, 지식 그래프와 온톨로지로 의미 있게 조직하고 연결하는 쪽에도 관심이 있습니다.
레거시 데이터와 조직의 암묵지가 누적된 상황에서, 이들을 정제하고 조직화하여 사람과 기계가 바로 사용할 수 있는 데이터 인프라를 설계해보고 싶습니다.

Skills

LLM / NLP

LangChainRAGPrompt EngineeringAgent

Knowledge Graph

OntologyNeo4jSPARQLRDF/OWLGraphDBProperty Graph

Data

데이터 품질 평가/관리데이터 정제통계데이터 아키텍쳐

Web / Tooling

Vue/ViteDjangoFastAPIMySQLMongoDBRedis

Domain

문헌정보학주소공공데이터

Education

중앙대학교2020-2024

문헌정보학과, 소프트웨어학부(복수전공)/학사

중앙대학교2024-2026

문헌정보학과/석사

Certifications

SQLD(SQL 개발자) · 한국데이터산업진흥원2026.03.27

자격번호: SQLD-060014854

Experience

Researcher · HIKE Lab.2023-2026

Awards

제13회 산업통상부 공공데이터 활용 아이디어 공모전 (대상) · 산업통상부2025

HIKE Lab. 으로 참가 / 아이디어 기획 부문 대상

데이터 활용 아이디어&시각화 경진대회 · 한국데이터산업진흥원2021

시각화 스토리텔링 부문 우수상

Paper

공공데이터 재사용성 향상을 위한 9차원 품질 진단 프레임워크의 설계와 실증2026

제1저자 (교신저자 김학래 교수) · 정보관리학회지 제43권 제2호, 329–352

공공데이터 CSV 파일의 재사용성을 자동으로 진단하는 9차원 품질평가 프레임워크를 제안한 연구다. 행정안전부 4대 지표와 ISO/IEC 25024 메트릭 체계를 기반으로 구조완결성·스키마안정성·의미중복도·재사용적합성·표준연계성 5개 차원을 추가하고, Gate 메커니즘과 참조데이터 기반 규칙엔진으로 자동화 진단 파이프라인을 구현했다. 산업통상자원부 산하 19개 기관의 CSV 1,258건을 실증분석하여 적시성 취약과 기관 간 품질 편차를 확인하고 기관 맞춤형 큐레이션의 필요성을 제시했다.

공공데이터 주소 품질 향상을 위한 절차적 정제 프레임워크(AQRF): 설계와 실증2025

제1저자 (교신저자 김학래 교수) · 지적과 국토정보 제55권 제2호, 157–172 (한국국토정보공사) · DOI 10.22640/lxsiri.2025.55.2.157

공공데이터의 주소 품질을 체계적으로 개선하기 위해 의미 단위 분해·구성요소 보완·행정정합성 검증·오류 수정의 4단계로 구성된 절차 기반 프레임워크(AQRF)를 제안한 연구다. 보건의료 5개 공공데이터세트 약 14,000건을 대상으로 실증한 결과 평균 정제 성공률 99.18%를 달성했고, KS X ISO 19157 기준의 구성요소 인식과 행정정합성이 일관되게 향상되었다. 주소 품질을 필드 수준 정확성 문제가 아니라 데이터세트 간 구조적 관계로 재개념화하고 품질관리 단위를 프로세스 자체로 확장한 점이 핵심 기여다.

FAIR 데이터 원칙을 적용한 국내 디지털 아카이브 평가와 개선 방향2024

공동저자 · 한국기록관리학회지 24(4), 113–134 · DOI 10.14404/JKSARM.2024.24.4.113

탐색성·접근성·상호운용성·재사용성(FAIR) 관점에서 디지털 아카이브를 평가하는 방법론을 제시하고, 국내 디지털 아카이브 261개를 조사해 최종 선정한 69개를 대상으로 FAIR 데이터 원칙 준수 여부를 정량 분석한 연구다. ARDC FAIR Self Assessment Tool의 세부 지표를 디지털 아카이브 특성에 맞게 재해석·구체화해 적용했으며, 국내 디지털 아카이브가 전반적으로 FAIR 원칙을 반영하지 못하고 특히 상호운용성과 재사용성이 매우 낮음을 확인했다.