Tuesday 11 July 2017

Working With Large Data Sets In Stata Forex


Stata: Análise de dados e software estatístico Kevin S. Turner, StataCorp Primeiro, certifique-se de ter instalado memória suficiente ou de memória virtual suficiente. Se você tiver e ainda estiver recebendo esse erro, continue lendo. Sob todos os sistemas operacionais atuais do Windows de 32 bits (Windows 8, 7, Vista, XP, 2000, NT, ME, 98, 95), o espaço de endereços total disponível para qualquer aplicativo é de 2,1 GB. Se você tiver um conjunto de dados maior que 2,1 GB, não será possível carregá-lo no Stata para Windows. Esta é simplesmente uma limitação do sistema operacional. Infelizmente, mesmo se o seu conjunto de dados estiver abaixo do limite de 2,1 GB, você pode ter dificuldade ao carregá-lo no Stata. A falha novamente reside na forma como o Windows gerencia o espaço de endereços de 2,1 GB. Quando um aplicativo típico é carregado, geralmente há várias bibliotecas (ou DLLs) que são carregadas também. Essas bibliotecas geralmente são carregadas no espaço de 2,1 GB na extremidade superior, mas não em qualquer ordem determinista. A Microsoft assegurou-nos que não há como evitar que essas bibliotecas sejam carregadas em endereços arbitrários, assim, fragmentando o espaço disponível. Quando a Stata tenta carregar um conjunto de dados, ele solicita do Windows o maior espaço contíguo no intervalo de 2,1 GB. Dependendo de onde o Windows carregou as bibliotecas iniciais, isso pode ser de 1,8 GB, 1,3 GB ou menos. Você pode se surpreender ao descobrir que um conjunto de dados de 1,4 GB carregado uma vez, mas não foi possível carregar mais tarde. Este é simplesmente um efeito colateral infeliz do gerenciamento de memória do Windows. A partir do Stata 11.1, algumas das dependências em DLLs externas foram removidas, reduzindo a fragmentação da memória e aumentando a quantidade de memória disponível para o Stata. Se você estiver usando o Windows XP de 32 bits e você ainda está tendo problemas para alocar memória, você deve ler alocação ldquoMemory no Windows XPrdquo. Até agora, você está se perguntando quais são suas alternativas. Desde julho de 2007, várias alternativas do sistema operacional com suporte de 64 bits estão disponíveis. Veja nossa lista de sistemas operacionais compatíveis com o Stata. A plataforma de 64 bits permitirá que você trabalhe com grandes conjuntos de dados. Dependendo do seu sistema operacional, você deve ser capaz de alocar tanta memória quanto você na máquina, menos os requisitos do sistema. Para tirar proveito desta tecnologia, você precisará de hardware compatível com 64 bits, um sistema operacional de 64 bits e, claro, uma versão de 64 bits do Stata. Como último recurso, você pode considerar cortar todos os dados desnecessários do seu conjunto de dados ou dividir o conjunto de dados em dois arquivos. Você pode querer usar a segunda sintaxe do comando de uso para ler apenas as variáveis ​​de observações que você deseja. Por exemplo: Dependendo de seus dados e análise, isso pode não ser viável e é oferecido apenas como uma sugestão. Trabalhando com arquivos de dados grandes, o Stata exige que o arquivo de dados que deseja analisar se encaixe na memória. Isso significa que trabalhar com arquivos que se aproximem do tamanho da memória no seu computador pode ser um desafio. Felizmente, a Stata forneceu uma série de ferramentas agradáveis ​​para lidar com grandes arquivos de dados. Nós os revisamos aqui. Descreva o uso Às vezes, você pode querer ver quais variáveis ​​estão no arquivo grande. Você não precisa usar todo o arquivo apenas para ver uma lista de variáveis ​​e seus rótulos. Em vez disso, você pode digitar onde bigfile. dta é o nome do arquivo que deseja descrever. A Stata lhe dará todas as informações sobre as variáveis ​​que você esperaria do comando de descrição. Idealmente, você poderá selecionar um subconjunto de variáveis, ou um subconjunto de observações, apenas olhando para descrever. Lookfor e lookforall Se o arquivo grande tiver um monte de variáveis, o comando de descrição usando lhe dará uma grande quantidade de texto para pesquisa. O comando lookfor pesquisará os nomes das variáveis ​​e os rótulos para qualquer cadeia de caracteres que você fornecer e listar os nomes de variáveis ​​que contém essa string. Se você tiver vários arquivos para pesquisar, tente procurar. Este comando está disponível nos arquivos SSC. Ele procura através de todos os arquivos de dados Stata no diretório atual (e seus subdiretórios se você pedir) para qualquer string que você deseja encontrar. A string pode estar no nome da variável ou no rótulo. Por exemplo, você pode querer encontrar a variável que contém o peso da amostragem, então tente pesquisar o peso da corda. Primeiro, mude os diretórios (cd) para o diretório que contém o arquivo ou os arquivos que deseja pesquisar, então procure a string: O comando lista o nome de cada arquivo contendo essa string juntamente com os nomes de todas as variáveis ​​que contêm essa string em seu nome Ou rótulo. Em seguida, dá-lhe um link clicável para cada arquivo com uma correspondência. Este comando possui muitos recursos agradáveis. Consulte a ajuda para procurar no CPC, ou você pode baixá-lo para o seu computador autônomo com o ssc install lookforall. Use listofvariables usando Você pode trazer um subconjunto de variáveis ​​de bigfile. dta para a memória usando esta forma de comando de uso: Depois de analisar os resultados de descrever usando ou lookfor. Determine quais variáveis ​​você precisa para sua análise e liste-as no comando de uso. Você pode trazer uma pequena amostra de observações de um arquivo grande com esta versão do comando: Isso permite que você veja uma amostra das variáveis ​​com mais cuidado, talvez aprendendo mais do que você poderia obter no comando de descrição. Suponha que você só esteja interessado em estudar pessoas em uma certa faixa etária. Claro, você pode combinar qualquer um ou todos esses recursos no mesmo comando. Amostra aleatória Você pode querer testar seu modelo em um pequeno número de observações. Selecionar essas observações aleatoriamente pode ajudá-lo a obter um conjunto um pouco mais representativo do que selecionar aqueles desde o início do arquivo, por exemplo. Você pode usar a função runiform para selecionar qualquer porcentagem de observações que você escolher. A função retorna um valor entre 0 e 1, para obter uma amostra de 10, você pode usar observações quando o runiform retorna valores entre 0 e 0.1, ou qualquer outro intervalo de comprimento 0.1, como este:

No comments:

Post a Comment