기본적인 분석

마지막 업데이트: 2022년 5월 27일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기
cor.test(변수1, 변수2, ‘방법’) : 변수1과 변수2의 상관계수를 ’방법’을 활용하여 구하라

Chapter 5 상관분석 - 기본

상관분석/회귀분석은 가장 기본적이면서도 강력한 분석 방법으로
간단한 내용은 엑셀에서도 정말 쉽게 분석 가능합니다.

전문 통계 프로그램을 활용하면 시각화 및 고급 분석에 장점이 있으므로,
분석 주제 및 데이터에 맞게 Tool을 선택하시면 될 것 같습니다.

지난 시간에 이어, R 내장 데이터인 mtcars 데이터와 아래의 네 가지 패키지를 활용하여 진행하고자 합니다.

이제부터 공유드리는 내용에는 ‘파이프 연산자’ ‘%>%’ 가 활용될 예정이며, 이 연산자를 통해 물이 흘러가듯 데이터가 흘러 들어간다고 생각하시면 됩니다.

아울러, 향후 각종 분석과 머신러닝 등을 위해 tidymodels 패키지를 설치해두시면 조금 더 편하게 분석/머신러닝을 진행하실 수 있습니다.

먼저, 필요한 패키지를 pacman 패키지 p_load 함수를 활용하여 한번에 불러오겠습니다.

  • 저는 주로 바로 시각화해서 상관 관계를 확인하기 때문에,
    corrplot 패키지로 시각화 하기 을 곧바로 참고해주셔도 됩니다.

5.1 상관분석 시행

cor(데이터): 데이터의 변수 간 상관계수를 구하라

앞서 공유 드렸듯이, mtcars는 총 11개 변수로 구성되어 있습니다.

기본적인 변수간 상관 분석은 cor() 함수를 통해 바로 진행하실 수 있습니다.

mtcars 라는 데이터가 cor 라는 기본적인 분석 상관분석 함수로 들어가서 tidy라는 결과보기 함수로 들어가서 위와 같이 정리되어 보여집니다. 결과를 보면, 상관계수가 꽤 높은 것들도 많이 보입니다.

상관분석 method도 pearson, spearman, kendall 중 선택하실 수 있으며, 이 중 default는 pearson으로 되어 있습니다.

각 방법의 차이와 상관분석의 의미에 대해서는 아래 링크 참고해주시면 됩니다.

5.2 상관분석 통계적 유의성 파악

cor.test(변수1, 변수2, ‘방법’) : 변수1과 변수2의 상관계수를 ’방법’을 활용하여 구하라

cor.mtest(메트릭스 데이터,‘방법’,‘신뢰수준’ ) : ’신뢰수준’에서, ’방법’을 활용하여 매트릭스 데이터 모든 변수의 상관계수를 구하라

두 개의 변수에 대해서만 상관계수 검정을 기본적인 분석 기본적인 분석 하실 때는 cor.test 함수를 사용하시면 되고,
두 개 이상의 변수에 대해 상관계수 검정을 하실 때는 cor.mtest 함수를 사용하시면 됩니다.

우선, 상관계수가 높게 나온 cyl과 disp의 상관계수 검정을 cor.test 함수를 활용하여 진행해보겠습니다.

검정 결과, p-value가 0.05보다 훨씬 작은 값이 나왔기에
해당 상관 계수는 통계적으로 유의하다고 볼 수 있습니다.

“통계적으로 유의하다”는 표현을 앞으로도 자주 사용하게 될텐데, 분석을 하다보니 가장 중요한 것이 통계적인 지식인 것 같습니다. p-value에 대해서는 아래 강의 추천드립니다.

cor.mtest 함수를 사용하면 해당 데이터에 존재하는 모든 변수간 상관계수 검정을 진행할 수 있는데요,
mtcars에 있는 모든 변수에 대해 상관계수 검정을 진행해보겠습니다.

cor.mtest 함수를 실행하면, p값이 저장되어 기본적인 분석 있는 p, 신뢰구간의 하단을 나타내는 lowCI,
신뢰구간의 상단을 나타내는 uppCI 총 3개의 변수로 결과 값이 나옵니다.

저는 p값만 사용하며, 변수가 많은 경우, 아래와 같이 출력해서 통계적 유의미성을 확인하는 것은 한계가 있습니다.

5.3 상관분석 시각화

저는 앞의 과정들을 생략하고, 주로 corrplot을 그려서 바로 상관관계를 봅니다.

먼저 mtcars 변수들에 대해 상관계수 검정을 진행합니다. (pearson 상관계수 양측검정)

str함수를 통해 p.value 의 구조를 살펴보면 p.value는 p값, lowCI값, uppCI 값으로 구성되어 있으며, 저희는 상관계수인 p값만 필요하기에 리스트 첫번째 p.value1 = p값만 뽑아서 사용합니다.

Rstudo에서 할 때는 dev.new() 로 새 창을 열어주고, 아래의 내용을 실행하여 그림을 그려줍니다.

위와 같이 상관분석 결과를 한눈에 보실 수 있으며, 파란색이 진해질수록 정적 상관이, 붉은색이 진해질수록 부적 상관이 크고, pie를 차지하는 면적이 클수록 상관계수가 큼을 알 수 있습니다.

위 코드의 뜻은 다음과 같습니다. mtcars 원 데이터를 cor 함수에 넣어서 상관 분석을 한 뒤, corrplot.mixed 함수에 넣어 시각화를 진행합니다.

빅데이터와 가명∙익명정보에 대한 이해

“4차 산업혁명의 유전은 바로 데이터”라는 이야기 혹시 들어보셨나요? 2017년 3월 이코노미스트의 한 기사는 “세상에서 가장 가치 있는 자원은 더 이상 기름이 아니라 데이터이다” 라고 이야기하였는데요. 4년이 지난 지금도 공감가는 이야기입니다.

실제로 데이터를 활용하는 기업들만이 살아남는 구조를 만들고 있는데요. 예를 들어 구글, 애플, 마이크로소프트, 아마존, 페이스북등 이미 시장은 이들 기업으로 장악하고 있지요.

우리나라도 데이터3법 개정안이 20년 1월 9일 통과가 되어 2020년 8월 5일부터 빅데이터 시대가 열렸습니다.

여러 가지 이유로 데이터의 규제가 다른 어떤 나라보다도 규제가 심한 나라 중 하나였습니다만 이제 데이터 3법 통과로 인해 빅데이터의 새로운 시발점이 되는 중요한 시기를 지나고 있습니다.

개정 데이터3법의 핵심

기존의 법 개정 전에는 개인정보의 활용은 반드시 추가 동의 후 사용해야 했고 당초 수집목적 외에는 사용할 수 없었는데요. 개정 후에는 당초 수집 목적 외에 개인정보를 사용할 수 있다는 점입니다. 아직도 많은 숙제가 남아 있고 추가되는 사항들이 나오리라 예상됩니다.
오늘은 이러한 상황에서 도입된 개념에 관하여 이야기해보겠습니다.

가명 정보와 익명 정보

데이터 3법의 핵심은 정보 주체의 별도의 동의 없이 개인정보를 사용할 수 있는 기반을 마련하기 위해 새롭게 나온 개념이 개인정보의 가명화와 익명화입니다.
기존에 비 식별화에 대한 개념이 있긴 했지만 법률적인 용어와 정의는 이번에 법제화 되었습니다. 그렇다면 이 가명 정보와 익명 정보란 어떤 것인지 알아보도록 하겠습니다.

가명 정보란?

“개인을 알아볼 수 있는 정보 또는 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보를 가명 처리함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용 없이는 특정 개인을 알아볼 수 없는 정보 “라고 정의가 되어있는데요. 즉, 가명 정보는 추가정보의 사용 없이 특정 개인을 알아볼 수 없게 조치한 정보입니다.

그렇다면, 가명 처리는 무엇일까요?

가명처리란?

개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가정보가 없이는 특정 개인을 알아볼 수 없도록 처리하는 것 ”입니다.

이렇게 가명 처리한 정보는 정보 주체의 동의 없이 통계 목적(상업적 목적 포함)과 과학적 연구 목적(산업적 연구 포함), 공익적 기록 목적 등으로 활용 가능합니다.

이와 달리 익명정보는 무엇일까요?

익명 정보란?

“시간∙비용∙기술 등을 합리적으로 고려 할 때 다른 정보를 사용하여도 더 이상 개인을 알아볼 수 없는 정보 ” 라고 정의하고 있습니다.

이렇게 개인정보를 동의 없이 사용할 수 있는 개념으로 가명 정보와 익명 정보의 용어와 기술을 사용할 수 있게 되었습니다.

가명 정보의 규정 및 예외 사항

가명 정보는 가명 처리한 정보의 조합으로 특정 개인을 식별한 가능성이 남아있기 때문에 안전성 확보 조치 의무를 수행하여야 합니다. 즉, 운영중인 개인정보와 분리하여 보관 및 관리하는 등 기술적, 관리적, 물리적 조치 및 이용 기록 보관을 해야합니다.
다만, 가명 정보는 일반 개인정보와 달리 그 자체로는 개인을 식별하기 어려움으로 안전성 확보 조치 의무의 예외 사항도 있습니다 . 예를 들면 간접 수집 출처 고지, 개인정보 파기, 양도에 따른 개인정보 이전 제한, 유출 통지, 열람·정정·삭제 요구, 개인정보 이용 내역 통지 등의 규정에서 제외되었습니다.

익명 정보의 규정

더 이상 개인을 알아볼 수 없는 정보이기 때문에 제한 없이 자유롭게 활용이 가능합니다. 즉, 개인정보보호법 적용 대상이 아닙니다.

마무리 하며

이렇게 오늘은 가명 정보와 익명 정보에 대한 이야기와 빅 데이터의 배경에 대한 이야기를 해보았는데요. 도움이 되셨나요? 그 밖에 빅데이터 관련 개발을 위해 준수해야 할 개인정보보호 사항은 자료실의 인공지능(AI) 개인정보보호 자율점검표 를 확인해보세요.

캐치시큐는 중소기업과 스타트업을 위한 개인정보보호의 선두주자로 개인정보를 위한 올바른 방향을 제시하고 대한민국 개인정보의 안전을 위해 노력할 것입니다.기본적인 분석

올해에는 마이데이터 컨설팅을 하여 핀테크 스타트업의 마이데이터 사업 선정 을 이루어 내는 성과를 냈는데요. 여러분들과 함께 개인정보의 투명한 활용과 보호를 위한 그날까지 오늘보다 더 나은 내일을 만들어가겠습니다.

인공 지능이란 무엇입니까?

인공 지능(AI)은 학습, 문제 해결, 패턴 인식 등과 같이 주로 인간 지능과 연결된 인지 문제를 해결하는 데 주력하는 컴퓨터 공학 분야입니다. 보통 "AI"로 줄여서 부르는 인공 지능은 로봇 공학이나 미래의 모습을 내포하고 있을 수도 있지만, AI는 공상 과학 소설에 나오는 작은 로봇을 넘어 첨단 컴퓨터 공학의 현실이 되고 있습니다. 이 분야의 저명한 과학자인 Pedro Domingos 교수는 논리와 철학에 기원을 둔 상징주의자, 신경 과학에서 유래한 연결주의자, 진화 생물학과 관련된 진화론자, 통계와 개연성을 다루는 베이지안, 그리고 심리학에 기반을 둔 유추론자로 구성된 기계 학습의 "5가지 집단"을 설명합니다. 최근에 통계 컴퓨팅 효율성이 개선되면서 베이지안이 "기계 학습"이라는 분야에서 몇 가지 영역을 성공적으로 발전시킬 수 있게 되었습니다. 이와 마찬가지로 네트워크 컴퓨팅이 발전하면서 연결주의자도 "딥 러닝"이라는 이름으로 하위 분야를 더욱 발전시킬 수 있게 되었습니다. 기계 학습(ML)과 딥 러닝(DL)은 모두 인공 지능 분야에서 파생된 컴퓨터 과학 분야입니다.

이러한 기법은 크게 "감독된" 학습 기법과 "감독되지 않은" 학습 기법으로 나뉘며, "감독된" 기법은 원하는 출력값이 포함된 교육 데이터를 사용하고 "감독되지 않은" 기법은 원하는 출력값을 제외한 교육 데이터를 사용합니다.

AI는 더 많은 데이터를 통해 "점점 더 똑똑"해지고 더 빠르게 학습하고 있으며, Amazon Redshift와 같은 데이터 웨어하우스에서 집계되고 추출되든, Mechanical Turk의 "대중"의 힘을 통한 실측 자료이든, Kinesis Streams를 통해 동적으로 수집되든 관계없이 기업은 기계 학습과 딥 러닝 솔루션을 실행하는 데 필요한 이러한 연료를 매일 생성하고 있습니다. 또한, IoT가 출현하면서 센서 기술이 분석할 데이터양을 기하급수적으로 늘리고 있습니다. 이는 이전에는 거의 손대지 않았던 소스, 장소, 객체 및 이벤트의 데이터입니다.

기계 학습

기계 학습은 패턴 인식 및 학습에 사용되는 몇 가지 베이지안 기법에 주로 적용되는 이름입니다. 기계 학습은 기록된 데이터에서 학습하고 이를 기반으로 예측하며, 불확실성 하에서 기본 유틸리티 기능을 최적화하고, 데이터에서 숨겨진 구조를 추출하고, 데이터를 간결한 설명으로 분류할 수 있는 알고리즘의 모음입니다. 기계 학습은 명시적 프로그래밍이 너무 엄격하거나 실용성이 없는 경우 주로 배포됩니다. 소프트웨어 개발자가 주어진 입력에 따라 프로그램 코드별로 출력을 생성하기 위해 개발하는 일반 컴퓨터 코드와는 달리, 기계 학습은 데이터를 사용하여 통계 코드(ML 모델)를 생성합니다. 이 통계 코드는 이전의 입력(감독된 기법의 경우 출력) 예제에서 인식한 패턴을 기반으로 "적절한 결과"를 출력합니다. ML 모델의 정확성은 대부분 기록 데이터의 양과 질에 달려 있습니다.

적절한 데이터가 있다면 ML 모델은 수십억 개의 예제를 통해 고차원의 문제를 분석함으로써 주어진 입력을 사용해 출력을 예측할 수 있는 최적의 기능을 찾을 수 있습니다. ML 모델은 예측뿐만 아니라 전반적인 성능에 대한 통계적 신뢰도를 제공합니다. ML 모델 또는 다른 개별 예측을 사용하려는 경우 이러한 평가 점수는 의사 결정에 중요한 역할을 합니다.

Amazon에서는 기계 학습을 어떻게 사용합니까?

Amazon.com은 기계 학습 기반 시스템상에 많은 비즈니스를 구축하고 있습니다. ML 없이는 Amazon.com이 비즈니스를 성장시키고, 고객 경험과 선택을 개선하며, 물류 속도와 품질을 최적화할 수 없었을 것입니다. Amazon.com은 다른 비즈니스에서도 Amazon.com이 사용하는 것과 같은 IT 인프라를 활용하고 민첩성과 비용 혜택을 받을 수 있게 하려고 AWS를 시작했으며, 이제 모든 비즈니스에서 사용할 수 있도록 ML 기술을 계속해서 대중화하고 있습니다.

Amazon.com 개발 팀의 구조와 ML에 집중하여 실질적인 비즈니스 문제를 해결하려는 노력으로 Amazon.com과 AWS가 사용이 간편하며 강력한 ML 도구와 서비스를 개발하게 되었습니다. 이러한 도구는 다른 IT 서비스와 마찬가지로 모든 비즈니스에서 사용하도록 AWS 서비스로 제공하기 전에 Amazon.com의 규모와 미션 크리티컬 환경에서 먼저 테스트합니다.

비즈니스에서 기계 학습 구현하기

기계 학습은 기록 데이터를 기반으로 미래의 결과를 예측하는 데 주로 사용됩니다. 예를 들어 조직에서는 기계 학습을 사용하여 특정 인구 통계학을 기반으로 향후 회계 분기에 제품이 얼마나 판매될지 예측하거나 브랜드에 대한 충성도가 높아지거나 불만족하게 될 가능성이 가장 높은 고객 프로파일을 예측합니다. 이러한 예측을 통해 비즈니스 의사 결정을 개선하고, 좀 더 개인적인 사용자 경험을 제공하며, 고객 유지 비용을 줄일 수 있습니다. 과거 비즈니스 데이터를 보고하는 데 집중하는 비즈니스 인텔리전스(BI)를 보완하는 ML은 과거의 추세와 트랜잭션을 기반으로 미래의 결과를 예측합니다.

비즈니스에서 ML을 성공적으로 구현하는 데 필요한 몇 가지 단계가 있습니다. 먼저 정확한 문제를 파악 – 알아내면 비즈니스에 기본적인 분석 도움이 될 예측이 무엇인지 파악합니다. 다음으로 데이터가 과거 비즈니스 지표(트랜잭션, 판매, 감소 등)를 기반으로 수집되어야 합니다. 데이터가 집계되면 해당 데이터를 기반으로 ML 모델이 구축될 수 있습니다. ML 모델이 실행되고 모델의 예측 결과가 비즈니스 시스템에 다시 적용되어 좀 더 정보에 근거한 의사 결정을 내릴 수 있습니다.

기본적인 분석

글자작게

글자크게

출력하기

공유하기

메인 바로가기

농산물, 수산물, 축산물 등 식품재료의 생산이용 및 식품가공공정, 미생물을 이용한 기본적인 분석 발효식품 생산, 식량자원 개발 등의 기본적인 이론을 소개하여 식품공업의 이해 및 응용에 도움이 되도록 한다.

식품중에 함유되어 있는 탄수화물, 단백질의 종류와 기본적인 분석 기본적인 분석 구성 및 작용, 무기질, 비타민 등의 흡수와 이동 체내에서의 작용, 필요량, 결핍증세, 함유식품등과 음식의 소화흡수, 식품의 열량, 체내에서의 에너지 대사 등에 대하여 이해할 수 있도록 한다.

식품의 제조 공정 및 기초 연구에 필요한 단위조작(열전달, 유체흐름, 물질전달, 혼합, 분리, 크기조작)에 기본적인 분석 대한 기본 개념을 습득하며 이를 토대로 기초 물질 및 에너지 수지, 유체식품의 공정처리, 열전달, 물질 전달 및 반응속도에 관한 기초 지식을 습득한다.

식품공정공학(1)에서 습득한 식품 과학 관련 기초 공학적 소양을 이용하여 실제 식품 공정에서의 가열 살균, 멸균, 냉동, 건조, 추출, 분쇄 및 혼합 기술과 가공 공정 중의 식품의 물성 변화에 관한 지식을 학습한다.

생체내 물질의 화학적 변화와 이에 수반되는 에너지 변화를 다루면서 생명현상을 화학적으로 연구하는 생화학의 기초이론과 생체내에서 생세포가 생명활동을 유지하는 대사에 대한 기본적인 개념을 이해할 수 있도록 한다.

발효제품의 생산을 위한 미생물의 균주개량, 발효공정과 장치, 배양방법, 분리정제법 등에 대하여 학습한다. 또한 이들의 지식을 응용하여 아미노산 조미료, 핵산조미료, 유기산, 효소 등 다양한 발효제품의 생산에 관한 실용적이며 종합적인 내용을 학습한다.

생체내의 화학반응과 반응메카니즘을 중심으로 생체성분들의 생합성을 비롯하여 효소에 의한 생화학 반응의 촉매작용 및 작용메카니즘, 대사조절을 다루며 최근 심화되고 있는 분자생물학을 도입하여 유전현상의 분자적 이해를 도울 수 있도록 한다.

양조산업은 8조원이 넘는 매출을 기록하고 있는 국가적으로 중요한 식품산업이다. 양조산업은 오랜 역사를 자랑하는 전통적인 산업이기도하지만 대중화 및 세계화 를 위해서 원료, 발효, 제조, 가공에 있어서 첨단기술의 적용이 요구되는 미래적인 산업이기도 하다. 양조공학에서는 술의 역사 각종 술의 종류, 이들의 제조방법과 특성, 술과 건강, 주류분석법 등 종합적인 내용을 다룬다.

식품의 변패인자로서 미생물, 곤충, 쥐, 식품효소, 화학반응, 수분, 온도등과 식품의 저장, 동결, 건조, 통조림, 방사선 조사등에 의한 저장원리와 저장법을 이해할 수 있도록 한다.

식품의 원료, 제조가공, 유통과정에 발생되는 화학적, 미생물학적 및 자연적 인체의 위해 요소와 성상, 발생원인, 생리적 기작, 제어대책의 이론을 습득함으로서 식품의 안전의 중요성을 이해하도록 하며 관련 법규 등을 이해하여 안전사고를 예방할 수 있도록 한다.

학부과정에서 습득한 관련 전공분야의 이론을 바탕으로 연구 기획 및 연구방법 등 전 과정을 팀별로 지도교수의 지도를 받으면서 수행하여 식품산업에서 요구하는 창의적 엔지니어로서의 능력을 배양하여 실제 현장에서 부딪히는 다양한 현장실무 문제를 체계적으로 분석하여 진단하고 창의적으로 해결할 수 있는 능력을 갖추도록 한다.

[01811] 서울 노원구 공릉로 232 서울과학기술대학교 식품공학과 TEL : 02-970-6732, 6733 FAX : 02-970-9736
Copyright (c) SEOUL NATIONAL UNIVERSITY OF SCIENCE AND TECHNOLOGY. All Rights Reserved.


0 개 댓글

답장을 남겨주세요